Wiki PIREH

Des ressources pour utiliser le numérique en histoire

Outils pour utilisateurs

Outils du site


presentation_de_webscraper_pour_chromium

====== Différences ====== Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
presentation_de_webscraper_pour_chromium [2015/12/04 09:58]
Stéphane Lamassé
presentation_de_webscraper_pour_chromium [2016/09/03 15:36] (Version actuelle)
Ligne 11: Ligne 11:
 === Un exemple le blog : Melenchon.fr === === Un exemple le blog : Melenchon.fr ===
  
-Notre **objectif** : fabriquer un tableau avec les titre, les dates, les url et les textes des articles publiés sur le blog+Notre **objectif** : fabriquer un tableau avec les titres, les dates, les url et les textes des articles publiés sur le blog
  
 == Préparer ​ == == Préparer ​ ==
Ligne 35: Ligne 35:
   - il doit récupérer du texte, des images, des dates qui sont entre des balises pour afficher leur contenu dans un tableau final, qui sera notre résultat.   - il doit récupérer du texte, des images, des dates qui sont entre des balises pour afficher leur contenu dans un tableau final, qui sera notre résultat.
  
-1. Le programme doit se déplacer jusqu'aux articles+1. Le programme doit atteindre seul l'information que nous souhaitons enregistrer et pour cela il doit suivre une suite de liens. ​
  
 On ajoute une fonction à l'aide de "Add new selector"​. ​ On ajoute une fonction à l'aide de "Add new selector"​. ​
Ligne 59: Ligne 59:
  
 On fabrique une nouvelle méthode qui va s'​appliquer sur la nouvelle page (http://​melenchon.fr/​categorie/​tous-les-articles/​) dont voici les paramètres :  On fabrique une nouvelle méthode qui va s'​appliquer sur la nouvelle page (http://​melenchon.fr/​categorie/​tous-les-articles/​) dont voici les paramètres : 
-  * Id : **VerslesBillets**+  * Id : **VerslesBillets** ​(l'​idée est que le petit robot atteigne les billets)
   * Type : **Link** ​   * Type : **Link** ​
   * Selector : **Select** ​ C'est ici qu'il faut prendre garde ! Il faut garder la touche "​contrôle"​ enfoncé pour séléctionner plusieurs "Lire la suite" , comme ceci :    * Selector : **Select** ​ C'est ici qu'il faut prendre garde ! Il faut garder la touche "​contrôle"​ enfoncé pour séléctionner plusieurs "Lire la suite" , comme ceci : 
Ligne 67: Ligne 67:
   * Parent Selectors :  **VerslesArticles**   * Parent Selectors :  **VerslesArticles**
    
-3. Enfin il faut fabriquer les fonctions qui vont récupérer ​le texte que nous souhaitons importer. ​ +3. Enfin il faut fabriquer les fonctions qui vont récupérer ​les informations ​que nous souhaitons importer ​et que l'on trouve sur la description et dans les billets du blogAinsi dans ce cas précis ​ nous souhaitons : 
-Dans ce cas précis ​(celui de notre objectif) ​nous souhaitons : +
   * titre (dans ce blog précisément faites attention à récupérer l'​élément : div.base-box) ​   * titre (dans ce blog précisément faites attention à récupérer l'​élément : div.base-box) ​
   * date    * date 
   * texte   * texte
- 
- 
 Pour chacun de ces éléments on doit ajouter une fonction ("Add new selector"​) ​ Pour chacun de ces éléments on doit ajouter une fonction ("Add new selector"​) ​
  
Ligne 83: Ligne 80:
  
 === Cerise ? === === Cerise ? ===
-{{rtemagicc_p-cerise.jpg.jpg?​20 |}}  On peut exporter ses "​sitemap"​ et donc les échanger : + 
 +{{rtemagicc_p-cerise.jpg.jpg?​20 |}}  Exporter son tableau en csv.  
 +> Sitemap> Export Data as csv > Download  
 + 
 + 
 + 
 +{{rtemagicc_p-cerise.jpg.jpg?​20 |}}  On peut exporter ses "​sitemap"​ et donc les échanger ​(copier/​coller le code suivant) ​
  
 >  {"​startUrl":"​http://​melenchon.fr/","​selectors":​[{"​parentSelectors":​["​_root"​],"​type":"​SelectorLink","​multiple":​true,"​id":"​versArticles","​selector":"​ul.main-menu li#​menu-item-800.menu-item a","​delay":""​},​{"​parentSelectors":​["​versArticles"​],"​type":"​SelectorLink","​multiple":​true,"​id":"​VersBillet","​selector":"​a.read-more-link","​delay":""​},​{"​parentSelectors":​["​VersBillet"​],"​type":"​SelectorText","​multiple":​false,"​id":"​Texte","​selector":"​div.base-box","​regex":"","​delay":""​},​{"​parentSelectors":​["​VersBillet"​],"​type":"​SelectorText","​multiple":​true,"​id":"​Titre","​selector":"​h1.post-tile","​regex":"","​delay":""​},​{"​parentSelectors":​["​VersBillet"​],"​type":"​SelectorText","​multiple":​false,"​id":"​Date","​selector":"​time.updated","​regex":"","​delay":""​}],"​_id":"​blogmelanchon"​} >  {"​startUrl":"​http://​melenchon.fr/","​selectors":​[{"​parentSelectors":​["​_root"​],"​type":"​SelectorLink","​multiple":​true,"​id":"​versArticles","​selector":"​ul.main-menu li#​menu-item-800.menu-item a","​delay":""​},​{"​parentSelectors":​["​versArticles"​],"​type":"​SelectorLink","​multiple":​true,"​id":"​VersBillet","​selector":"​a.read-more-link","​delay":""​},​{"​parentSelectors":​["​VersBillet"​],"​type":"​SelectorText","​multiple":​false,"​id":"​Texte","​selector":"​div.base-box","​regex":"","​delay":""​},​{"​parentSelectors":​["​VersBillet"​],"​type":"​SelectorText","​multiple":​true,"​id":"​Titre","​selector":"​h1.post-tile","​regex":"","​delay":""​},​{"​parentSelectors":​["​VersBillet"​],"​type":"​SelectorText","​multiple":​false,"​id":"​Date","​selector":"​time.updated","​regex":"","​delay":""​}],"​_id":"​blogmelanchon"​}
  
 +
 +
 +Vous pouvez ouvrir le fichier avec un éditeur, ou un tableur. ​ Intéressant ? Il reste du travail ! 
presentation_de_webscraper_pour_chromium.1449219492.txt.gz · Dernière modification: 2016/09/03 15:37 (modification externe)