Scraping les exposants des salons pour extraire toutes les infos

Le web scraping est devenu une pratique incontournable dans le monde des affaires. Une de ses scénarios d’application typiques c’est d’en profiter pour la génération de leads en rassemblant des données depuis des sites d’annuaires comme Google Maps ou Pagesjaunes.

Avec l’augmentation des communications au sein des industries, de nombreuses entreprises commencent à maximiser leurs opportunités lors des salons professionnels en mettant en service cette nouvelle technique. Les événements tels que les foires, les expositions et les salons sont des occasions idéales pour établir des contacts, découvrir des innovations et analyser la concurrence.

Dans cet article, nous allons montrer comment extraire des données des exposants des salons tout en mettant en lumière deux exemples concrets du scraping des exposants. Ce qui semble le plus important c’est que nous allons explorer la technique d’une manière nocode.

Que faire avec le scraping des exposants des salons

D’une manière générale, les salons affichent une longue liste des exposants de l’évènement sur leurs sites officiels. Le scraping des exposants des salons consiste justement à transformer les pages Web en données structurées, aidant à établir une liste de leads dans votre fichier Excel.

Pourquoi extraire la liste des exposants ?

La question est très simple à répondre. Les salons professionnels rassemblent toujours les acteurs importants d’une industrie. Par exemple, un salon de tourisme fait venir ceux qui travaillent dans la transportation, l’hôtellerie, les parcs de loisir, les villages de vacances, les restaurants, etc. Ces exposants représentent ainsi une audience ciblée, idéale pour le développement de nouveaux partenariats.

En outre, ces données servent à l’analyse du marché. A travers la liste des exposants, on peut comprendre qui sont les acteurs clés et comment ils se positionnent sur le marché, aidant à ajuster sa stratégie.

Quelles données peut-on extraire ?

C’est une autre question fréquemment posée par nos utilisateurs. Avec le web scraping, vous pouvez obtenir toutes les informations affichées sur la page Web, quelles que soient les noms des exposants, les coordonnées (adresse, téléphone, email, etc), le lien vers les sites Web ou d’autres informations proposées.

Je crois que vous êtes déjà très curieux de savoir comment faire précisément pour extraire toutes les informations des exposants. Allons vers la partie suivante.

Deux bons exemples de réussite de scraper les exposants

Je sais qu’il existe des scripts de nature à extraire n’importe quelles données depuis des sites de salon. Mais on ne l’aborde pas. La partie suivante va concentrer plutôt sur un méthode No-code pour ce faire puisque les équipes de ventes sont composées des gens non-techniques dans la plupart de cas.

Donc, faites vos préparations et on commence !

Télécharger Octoparse et décider le site de salon qui vous intéresse.

Tout d’abord, je voudrais diviser les sites de salon en deux genres : quand le premier montre toutes les informations nécessaires, pour lesquels il nous suffit de mener un scraping sur le site de salon lui-même ; le deuxième se limite à offrir le site officiel des exposants et il faut encore aller aux sites de chaque exposant pour récupérer d’autres informations complémentaires. On va les voir tous les deux.

Scraper le site de salon et obtenir toutes les info nécessaires des exposants

Je prends comme exemple le salon international de Batiment 2024. Il y a d’abord une liste des exposants. En cliquant sur chaque fichier d’un exposant, on trouve l’introduction détaillée et les coordonnées comme email, téléphone ou profil de médias sociaux. Pour ce genre de site, il nous suffit de mener un scraping sur le site lui-même pour obtenir toutes ces informations.

scraping les exposants

Donc, lancez le logiciel Octoparse sur votre ordinateur et suivez ces étapes pour continuer.

Etape 1 – Coller l’URL cible dans la barre de recherche d’Octoparse

https://www.batimat.com/fr-fr/qui-participe/liste-des-exposants.html#/

Etape 2 – Lancer la détection automatique

L’auto-détection activée, le robot va détecter la structure du site et deviner les données clé qu’il croit nécessaires pour vous.

scraping exposants de salons

Si les données dans le panneau d’aperçu de données correspondent justement à votre besoin, vous pouvez cliquer sur le bouton Créer un flux de travail pour avoir un workflow créé automatiquement par Octoparse. Un flux de travail apparaît alors sur le côté droit de l’écran. Il présente chaque étape du processus de scraping. Vous pouvez le lire de haut en bas, et de l’intérieur vers l’extérieur dans des actions imbriquées. Vous pouvez prévisualiser chaque étape en cliquant dessus et en vérifiant qu’elle fonctionne correctement.

Etape 3 – Cliquer pour ouvrir la fiche de chaque exposant

Cliquer sur le petit bouton de Saisir la sous-page et Octoparse vous fera comfirmer le lien à cliquer pour ouvrir la fiche de chaque exposant, comme ce que montre l’image suivante.

scraping exposants de salon

Etape 4 – Sélectionner les champs de données désirés.

Dans la page de détail des exposants, on est libre à sélectionner les données qui vous intéressent. Par exemple, je vais extraire les liens de profils des médias sociaux, l’email, le numéro de téléphone, l’adresse et le site officiel.

Etape 5 – Exécuter la tâche et exporter les données

Cliquez sur “Exécuter” pour lancer le scraper une fois que vous avez vérifié tous les détails. Il y a deux façons d’exécuter la tâche. Lorsque votre projet est de petite taille ou que vous ne souhaitez qu’une exécution rapide, vous pouvez l’exécuter sur votre appareil local. En revanche, les grands projets sont mieux adaptés pour être transférés sur les serveurs cloud d’Octoparse. Après l’exécution de la tâche, vous pouvez exporter les données dans un fichier Excel, CSV ou JSON comme vous le souhaitez.

Voilà les résultats de mon petit essai avec le mode local d’exécution.

scraping exposants de salon

Voilà ! Avez-vous réussi à extraire les données depuis ce site de salon ? N’hésitez pas à contacter le support si vous rencontrez des questions.

Scraper les sites propres aux exposants et puis y récupérer les coordonnées

Il y a des cas où les sites officiels des salons ne présentent pas les coordonnées des exposants. Comment faire si on voudrais encore récupérer les emails ?

Je prends comme exemple la liste des marques Who’s Next. Sur la page détailllée des marques, on ne voit qu’un site Web. Il nous faut aller au site Web et y extraire les données de coordonnées si elles sont accessibles.

Dans ce cas-là, je vais diviser la tâche en deux sous-tâches.

Premièrement, je vais extraire les sites Web des marques en répétant les étapes ci-dessus. La fonctionnalité de détection automatique va faciliter grandement le travail. Voilà mes résultats d’extraction. Chaque marque est déjà accompagné de son site officiel.

La deuxième sous-tâche consiste à récupérer les coordonnées depuis ces 1000+ sites s’il y en a. Mais on ne va pas créer un flux de travail de web scraping à partir de zéro par lui-même. Au contraire, je vais mettre en service un modèle de web scraping prêt à l’emploi – Contact Details Scraper de nature à détecter tout le code HTML d’un site et puis faire correspondre les règles des emails ou des numéros de téléphone avant de les extraire.

https://www.octoparse.fr/template/contact-details-scraper

Au retour à notre exemple, l’étape suivante consiste à utiliser ce modèle pour extraire les informations importantes depuis le code HTML des sites des exposants.

  • URLs de départ – les sites Web de ces 1218 marques
  • Profondeur maximal de lien – 0, parce que je suis sûre que les coordonnées sont souvent affichées sur la page d’accueil
  • Nombre maximal de pages – 1
  • Rester sur le même domaine – Yes.

Voilà mes résultats de scraping. Les emails, les numéros de téléphone et les profils de média sociaux sont récupérés avec succès. S’il y a des champs vides, il est probable que les données correspondantes manquent.

Au delà du scraping des exposants de salons

Octoparse est un outil de web scraping, destiné à l’extraction de données depuis des sites Web pour qu’on puisse transformer les pages Web en données structurées avant de les exporter vers Excel ou une base de données, facilitant l’exploration et l’analyse des données. Donc, Octoparse peut être largement utilisé dans l’extraction de données depuis toutes sources, sans être limité aux sites de salons. Selon les statistiques d’Octoparse, les dix sites les plus scrapés comprennent des sites d’e-commerce comme Amazon, des sites d’annuaires comme Pagesjaunes ou Google Maps, des sites de médias sociaux comme Twitter ou Linkedin, des sites de commentaires, comme Trustpilot, etc. J’espère que cet outil peut continuer à vous aider à améliorer l’efficacité ultérieurement.

Transformer les sites web vers Excel, CSV, Google Sheets ou base de données.

Auto-détecter les sites Web et extraire les données sans aucun codage.

Scraper les sites populaires en quelques clics avec les modèles pré-construits.

Ne se trouver jamais bloqué grâce aux proxies IP et à l’API avancée.

Service Cloud pour programmer le scraping de données.


已发布

分类

作者:

评论

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注