Web Scraping avec python

L’une des premières tâches que l’on m’a confiées lorsque j’ai commencé à travailler en tant que Data Scientist (Expert en Mégadonnées) a nécessité que Je fasse du web scraping (encore appelé harvesting et grattage web par certains).

C’était un concept qui m’était complètement étranger à l’époque et qui consiste à recueillir des données à partir de sites Web en utilisant un code, mais c’est en réalité l’une des sources de données les plus logiques et les plus facilement accessibles.

Après quelques essais, le web scraping avec python est devenu pour moi une seconde nature et l’une des nombreuses compétences que j’utilise presque quotidiennement.

Dans ce tutoriel, je vais expliquer en me servant d’un exemple simple, la façon de scraper un site web pour recueillir des données sur les 100 meilleures entreprises ‘Fast Track’ en 2018. L’automatisation de ce processus à l’aide d’un web scraper permet d’éviter la collecte manuelle de données, de gagner du temps et de regrouper toutes les informations sur les entreprises dans un seul fichier structuré.

[TL;DR]* Pour un exemple rapide d’un simple web scraper avec python, vous pouvez trouver le code complet dont parle ce tutoriel sur GitHub.
Pour commencer
La première question à se poser avant de commencer à utiliser une application python est « De quelles bibliothèques ai-je besoin ? »

Pour le web scraping, il y a plusieurs bibliothèques qui peuvent être utilisées, notamment :

Beautiful Soup
Requests
Scrapy
Selenium
Pour le présent exemple, nous utiliserons Beautiful Soup. En utilisant pip, le gestionnaire de paquets Python, vous pouvez installer Beautiful Soup avec ce qui suit :

pip install BeautifulSoup4

Maintenant que ces bibliothèques sont installées, nous pouvons commencer !

Inspectez la page Web
Pour savoir quels éléments vous devez cibler avec votre code python, vous devez d’abord inspecter la page web.

Pour recueillir des données du Top 100 des entreprises de Tech Track, vous pouvez inspecter la page en cliquant avec le bouton droit de la souris sur l’élément qui vous intéresse et en sélectionnant Inspecter. Ceci fait apparaître le code HTML où on peut voir l’élément dans chaque champ qui le contient.

Leave a Reply

Your email address will not be published. Required fields are marked *