Web scraping - késako ? - Clic2Buy
28022
post-template-default,single,single-post,postid-28022,single-format-standard,cookies-not-set,ajax_fade,page_not_loaded,,qode-title-hidden,qode-theme-ver-10.0,wpb-js-composer js-comp-ver-4.12,vc_responsive

Web scraping – késako ?

Vous avez peut-être déjà entendu ce nom barbare ? Il s’agit d’une technique permettant de récupérer des informations présentes sur les sites web.
On peut récupérer de façon générale du contenu d’un ou de plusieurs sites web de manière totalement automatique.
Pour ce faire, on va utiliser des programmes informatiques appelés “scrapers”, capables de naviguer sur internet pour extraire ces données. Le plus beau dans tout ça, c’est que l’on peut récupérer à peu près tout ce que l’on souhaite. Vraiment ? Oui, le contenu d’une page web est facilement récupérable.

 

Comment ça fonctionne ?

Commençons par le début…
Une page web est construite en HTML qui est un langage de balisage permettant de structurer son contenu et d’inclure des ressources de différents types (textes, images, liens, …). Ces balises doivent être utilisées d’une certaine façon pour décrire correctement la structure du document. Votre navigateur se charge d’afficher le rendu en interprétant le code. Le but n’est pas de comprendre le HTML dans son ensemble mais d’avoir une base pour comprendre la suite.

Dans la partie gauche de l’exemple ci-dessous, nous avons les balises <html>, <body>,<h1> et <p> présentes. La partie de droite représente ce que le navigateur affiche après analyse.

Comment le “scraper” extrait les informations ?

Dans le cas d’un scraper, celui-ci va analyser syntaxiquement le HTML via des méthodes de sélections définies dans le programme et pouvoir en extraire son contenu.

Dans l’exemple précédent, pour récupérer les données présentes entre les balises <h1> et <p>, on va utiliser un langage appelé Javascript. Ce langage de script léger est principalement connu comme le langage de script des pages web. Grâce à lui, nous pouvons manipuler une page web et extraire des données.

  • Pour extraire le contenu “Mon titre” : document.querySelector(‘h1’).textContent
  • Pour extraire le contenu “Coucou” : document.querySelector(‘p’).textContent

Explications : L’interface Document représente n’importe quelle page Web chargée dans le navigateur et sert de point d’entrée dans le contenu de la page Web. Cet accès permet de manipuler le document et d’en extraire des informations dans notre cas.

Félicitations ! Vous avez désormais les bases pour comprendre comment fonctionne le web scraping !

Pourquoi le choix du web scraping ?

Ce n’est pas vraiment un choix à proprement parler puisque ce procédé peut être assez complexe à mettre en place et nécessite, selon les sites, des interventions régulières. En effet, ceux-ci évoluent constamment et il arrive quelquefois que des scrapers rencontrent des difficultés à récupérer les informations attendues.

C’est pourquoi nous disposons d’un système d’alerte qui nous prévient immédiatement au moindre souci et permet à nos équipes techniques d’intervenir rapidement.

Le web scraping est une méthode parmi d’autres que nous utilisons afin de recueillir des données. On utilise cette dernière en complément des données fournies par les différents distributeurs avec lesquels nous travaillions afin d’avoir de la data la plus qualitative qui soit.

“Écrit par Alessio”