**Ceci est une ancienne révision du document !** ----
==== Prise en main ==== === Récupérer le plugin === Il s'agit d'un module d'extension (//plugin//[[https://fr.wikipedia.org/wiki/Plugin|définition]]) au navigateur Chromium, que vous devez installer. Pour le dire un peu rapidement, il permet d'utiliser la mise ne forme des pages web pour récupérer de l'information. Il peut naviguer sur une page en suivant des liens, des boutons, pour accéder à l'information désirée. Nous allons réaliser visuellement un petit programme. Vous trouverez une aide pour débuter sur le site **//webscraper//** : [[http://webscraper.io/|Ici]] === Un exemple le blog : Melenchon.fr === Notre **objectif** : fabriquer un tableau avec les titre, les dates, les url et les textes des articles publiés sur le blog == Préparer == Avant de lancer le //plugin// il faut aller sur la racine (l'accueil) de la page du site que vous souhaitez utiliser. Ici [[http://Melenchon.fr]] Vous activez l'extension grace au menu en haut à droite, en sélectionnant successivement "Plus d'outils"("More tools") > "Outils de développement" ("Developper tools") comme ceci : {{ :accederaumenu.png?200 |}} Cet outil, se présente comme onglet qui permet d'explorer le code d'une page (html, css, js). En ce qui nous concerne sur la barre de menu il y a un **Web scraper**. C'est là qu'il faut aller pour débuter. Deux onglets pour débuter : - Sitemap - Create new sitemap Évidemment nous débutons par le second : "Create new sitemap">"Create Sitemap". Donnons un nom explicite en minuscule : blogmelenchon.fr et l'adresse du site. Comme ceci : {{ :webscraper_creersitemap.png?200 |}} == Créer les outils == Nous allons décomposer notre "extraction de données" en deux grandes étapes : - il est nécessaire que le petit programme que nous faisons naviguer pour accéder à l'information, qu'il suive des liens - il doit récupérer du texte, des images, des dates qui sont entre des balises pour afficher leur contenu dans un tableau final, qui sera notre résultat. 1. Le programme doit se déplacer jusqu'aux articles On ajoute une fonction à l'aide de "Add new selector". Plusieurs champs à remplir s'affichent : * Id : il s'agit du nom de la fonction * Type : 11 paramètres possibles * Selector : contient trois options "**Select**" , "**Element preview**" , "**Data preview**" * Delay(ms) * Parent Selectors : pour l'instant il ne doit y avoir que **_root** Une fonction se définie, ici, par quatre grandes étapes :(1) un nom, (2) un type d'action, (3) la sélection de l'endroit dans la page où se trouve l'action à accomplir, (4) où se trouve la fonction dans la succession des opérations Voilà la fonction que nous proposons de réaliser * Id : **VerslesArticles** * Type : et bien nous souhaitons que le programme suive un lien dans le menu barre (>articles>Tous les articles) donc nous choisissons **Link** * On sélectionne **Select** et l'opération a effectuer, comme ceci : {{ :webscraperselect.png?200 |}} 2. Le programme doit se déplacer jusqu'aux billets On fabrique une nouvelle méthode qui va s'appliquer sur la nouvelle page (http://melenchon.fr/categorie/tous-les-articles/) dont voici les paramètres : * Id : **VerslesBillets** * Type : **Link** * Selector : **Select** C'est ici qu'il faut prendre garde ! Il faut garder la touche "contrôle" enfoncé pour séléctionner plusieurs "Lire la suite" , comme ceci : * Parent Selectors : **VerslesArticles**