ChatGPT est-il une alternative des outils de web scraping ?

Seulement une semaine après son lancement, ChatGPT a gagné un million d’utilisateurs et plus de 57 millions d’utilisateurs mensuels au cours de son premier mois. Avec de telles performances impressionnantes, une question me captive l’attention : “How will ChatGPT affect web scraping?” sur Reddit. En même temps, j’ai remarqué pas mal de mentions de ChatGPT dans les conseils sur le scraping sur le forum Growthhacking. C’est intéressant, et pourquoi ne pas entrer dans la discussion sur “dans quelle mesure ChatGPT changera-t-il l’extraction de données ?” Ou pour le dire de manière plus pessimiste, ChatGPT deviendra-t-il une alternative des outils de web scraping ? Pour répondre à cette question, nous devons avoir une idée claire de ce qu’est ChatGPT et de ce qu’il peut faire en matière de web scraping.

Qu’est-ce que ChatGPT

En tant que chatbot développé par OpenAI, ChatGPT est construit sur la famille GPT-3 d’OpenAI. GPT-3, abréviation de Generative Pre-trained Transformer 3, est un modèle d’IA de pointe pour le traitement du langage, capable de générer des textes comme s’il s’agit d’un être humain. OpenAI a alimenté le modèle de 300 milliards de mots via 570 Go de texte brut, y compris des livres, des articles, Wikipedia, des posts sur Internet, etc. pour le faire fonctionner et l’améliorer. Tout ce travail de formation a fait de ChatGPT un grand succès.

Tout le monde pourrait le trouver utile dans sa vie quotidienne et au travail. Grosso modo, ce chatbot peut être utilisé pour création de contenu, écriture de scripts, recherche des informations et pour apprendre des langues. Il peut aider à l’écriture, au débogage et à l’explication du code, ainsi qu’à la préparation de l’entretien d’embauche. Je l’invite à jouer le rôle de recruteur et me pose des questions pour une interview simulée pour un poste de marketing. Après que j’ai donné la réponse, le chatbot en a capturé la faiblesse tout en donnant des conseils pour l’améliorer. C’est génial !

Les compétences de ChatGPT en matière de création de contenu fait émerveiller dans le monde entier. Même si vous ne savez pas comment écrire une fiction, un scénario de film ou une chanson, vous pouvez en obtenir un après avoir posé plusieurs questions à ChatGPT et fourni quelques détails.

Bien que puissant, ce chatbot causera-t-il des menaces réelles pour les professionnels ?

Pas du tout.

Tout d’abord, l’oeuvre créée pour ChatGPT n’est pas tant attrayante et intéressante. La création de contenu est principalement basée sur la formation préalable, et donc des oeuvres déjà existantes. Il est presque impossible qu’on y trouve de la créativité. Il ne peut écrire que de contenu de base, ce qui est quelque peu ennuyeux. Et puis, ChatGPT est en fin de compte un chatbot avec qui on fait des bavardes, de petites conservations. Il ne peut pas remplacer aucun professionnel dans la création de contenu, dans l’écriture de code, etc. C’est tout. Je suis d’accord avec un point de vue d’un article paru dans The Atlantic qui souligne que ChatGPT doit être considéré comme un jouet et non comme un outil.

Dans quelle mesure ChatGPT changera-t-il le web scraping

On retourne à notre question : dans quelle mesure ChatGPT changera-t-il le web scraping ? ChatGPT deviendra-t-il une alternative des outils de web scraping ? Nous donnons notre réponse.

Dans le cadre de web scraping, ChatGPT montre ses forces et ses limits en même temps.

Le cas d’utilisation le plus courant consiste à faire écrire des codes pour l’extraction de données. Vous pouvez faire écrire des codes en précisant l’URL cible et les champs de données que vous souhaitez obtenir. Ensuite, ChatGPT fournit des lignes de code que vous êtes libre à copier. En outre, il indiquera la bibliothèque que vous pouvez utiliser. Le suivant est un exemple.

Pour les personnes qui font l’extraction de données en codant, ChatGPT peut aider à gagner du temps puisqu’elles n’ont pas besoin d’écrire le code elles-mêmes. Cette idée se voit sous la question sur Reddit et également dans les discussions sur Growthacking.

Une autre possibilité de profiter de ChatGPT est l’utiliser pour écrire des Xpath. Xpath est un langage de requête utilisé pour localiser et sélectionner des éléments spécifiques d’un document XML ou HTML. Les expressions XPath peuvent être écrites à la main ou générées automatiquement par des outils de scraping tels que Scrapy ou Octoparse. Maintenant, ChatGPT est un autre choix :

Pourquoi ne pas demander à ChatGPT d’extraire directement les données du site web ? Nous l’avons essayé mais la réponse de ChatGPT est NON, d’autant plus que ChatGPT n’a pas accès à l’Internet. C’est un fournisseur de conseils qui ne peut que servir de guide et aide à atteindre l’objectif, mais en tout cas, il s’agit simplement d’un modèle de langage.

Outils de web scraping no-code demeurent indispensables

Le ChatGPT ne peut fournir que des conseils concernant le scraping de données. Par conséquent, se tarder sur la question “ChatGPT deviendra-t-il une alternative des outils de web scraping “, c’est comme passer du temps à élucider si la couleur rouge peut remplacer le fruit de la pomme.

Au tout début de l’ère Internet, les gens pouvaient avoir besoin de compétences en codage pour récupérer des informations. Mais aujourd’hui, une large gamme d’outils de scraping Web permet à chacun d’extraire plus facilement des données de sites Web, quelle que soit son expérience du codage. Les gens n’ont plus besoin de passer leur temps à chercher sur Google, ni demander de l’aide auprès de ChatGPT.

De nombreuses outils de web scraping low code et no code sont disponibles sur le marché, et presque chacun d’eux elles vise à offrir une expérience facile à utiliser pour améliorer la productivité sur le lieu de travail. Octoparse, par exemple, permet aux utilisateurs d’extraire des données de divers sites Web en trois étapes simples.

Etape 1 : créer une tâche

Ouvrez le logiciel Octoparse sur votre appareil, puis copiez et collez l’URL cible dans la barre de recherche d’Octoparse. Le navigateur intégré commencera alors à charger la page.

Etape 2 : lancer la détection automatique et sélectionner les données désirées

Une fois que la page a été chargée, cliquez sur “Auto-detect webpage data” dans le panneau des astuces. Octopare analysera la page et mettra en évidence toute donnée qu’on peut extraire. Vous pouvez facilement y déterminer les données voulues et les données indésirées. Après avoir sélectionné tous les champs de données souhaitées, cliquez sur “Create workflow”. Un flux de travail s’affiche alors dans la partie droite de l’écran. Il présente chaque étape du scraper. En cliquant sur chaque action du diagramme, vous pouvez avoir un aperçu de son fonctionnement et vérifier s’il fonctionne comme prévu.

Dans cette phase, vous n’avez pas besoin d’être familier avec XML ou HTML, ce qui est nécessaire pour utiliser la bibliothèque Python. Même si ChatGPT vous donne un exemple de code, vous devez prendre le temps de vérifier que le code est 100% exact et répond à vos besoins. Certains utilisateurs ont signalé que ChatGPT faisait parfois des erreurs de codage.

Etape 3 : exécuter la tâche et exporter les données

Après avoir vérifié toutes les informations, cliquez sur “Run” pour lancer le scraper. Ocroparse propose maintenant deux options pour exécuter les tâches. L’une est l’exécution sur l’appareil local. Vous devez garder votre appareil allumé et maintenir une excellente santé tout au long du processus de scraping pour vous assurer que tout se passe comme prévu. L’autre option est l’exécution sur les serveurs cloud d’Octoparse. Si vous l’optez, votre tâche sera envoyée sur des serveurs en nuage, qui pourront continuer à fonctionner pour vous 24 heures sur 24, que vous allumiez ou non votre appareil ou quel que soit l’état de vos appareils locaux.

Une fois la tâche terminée, vous pouvez exporter les données dans un fichier Excel, CSV ou JSON, voire dans une base de données via API.

N’est-ce pas assez facile ? Pour l’utiliser, vous pouvez d’abord le télécharger et l’installer sur votre appareil. Au cas où vous voudriez essayer le service Cloud, vous pouvez demander un essai gratuit de 14 jours pour un plan premium. Je suis sûr que Octoparse, dans une certaine mesure, vous offrira une expérience remarquable, tout comme la conversation avec ChatGPT.

ChatGPT est remarquable dans le domaine des chatbots en démonstrant l’énorme progrès de l’IA, permettant au public d’imaginer et de penser à un monde avec l’IA. ChatGPT peut aider dans de nombreux domaines, y compris le web scraping, mais il semble encore trop tôt pour l’appeler un outil de productivité, sans parler de la possibilité de devenir une alternative des outils de scraping, ni autres outils.


已发布

分类

作者:

标签

评论

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注