Wiki PIREH

Des ressources pour utiliser le numérique en histoire

Outils pour utilisateurs

Outils du site


presentation_de_webscraper_pour_chromium

====== Différences ====== Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
presentation_de_webscraper_pour_chromium [2015/12/04 10:01]
Stéphane Lamassé
presentation_de_webscraper_pour_chromium [2016/09/03 15:36] (Version actuelle)
Ligne 11: Ligne 11:
 === Un exemple le blog : Melenchon.fr === === Un exemple le blog : Melenchon.fr ===
  
-Notre **objectif** : fabriquer un tableau avec les titre, les dates, les url et les textes des articles publiés sur le blog+Notre **objectif** : fabriquer un tableau avec les titres, les dates, les url et les textes des articles publiés sur le blog
  
 == Préparer ​ == == Préparer ​ ==
Ligne 35: Ligne 35:
   - il doit récupérer du texte, des images, des dates qui sont entre des balises pour afficher leur contenu dans un tableau final, qui sera notre résultat.   - il doit récupérer du texte, des images, des dates qui sont entre des balises pour afficher leur contenu dans un tableau final, qui sera notre résultat.
  
-1. Le programme doit se déplacer jusqu'aux articles+1. Le programme doit atteindre seul l'information que nous souhaitons enregistrer et pour cela il doit suivre une suite de liens. ​
  
 On ajoute une fonction à l'aide de "Add new selector"​. ​ On ajoute une fonction à l'aide de "Add new selector"​. ​
Ligne 59: Ligne 59:
  
 On fabrique une nouvelle méthode qui va s'​appliquer sur la nouvelle page (http://​melenchon.fr/​categorie/​tous-les-articles/​) dont voici les paramètres :  On fabrique une nouvelle méthode qui va s'​appliquer sur la nouvelle page (http://​melenchon.fr/​categorie/​tous-les-articles/​) dont voici les paramètres : 
-  * Id : **VerslesBillets**+  * Id : **VerslesBillets** ​(l'​idée est que le petit robot atteigne les billets)
   * Type : **Link** ​   * Type : **Link** ​
   * Selector : **Select** ​ C'est ici qu'il faut prendre garde ! Il faut garder la touche "​contrôle"​ enfoncé pour séléctionner plusieurs "Lire la suite" , comme ceci :    * Selector : **Select** ​ C'est ici qu'il faut prendre garde ! Il faut garder la touche "​contrôle"​ enfoncé pour séléctionner plusieurs "Lire la suite" , comme ceci : 
Ligne 67: Ligne 67:
   * Parent Selectors :  **VerslesArticles**   * Parent Selectors :  **VerslesArticles**
    
-3. Enfin il faut fabriquer les fonctions qui vont récupérer ​le texte que nous souhaitons importer. ​ +3. Enfin il faut fabriquer les fonctions qui vont récupérer ​les informations ​que nous souhaitons importer ​et que l'on trouve sur la description et dans les billets du blogAinsi dans ce cas précis ​ nous souhaitons : 
-Dans ce cas précis ​(celui de notre objectif) ​nous souhaitons : +
   * titre (dans ce blog précisément faites attention à récupérer l'​élément : div.base-box) ​   * titre (dans ce blog précisément faites attention à récupérer l'​élément : div.base-box) ​
   * date    * date 
   * texte   * texte
- 
- 
 Pour chacun de ces éléments on doit ajouter une fonction ("Add new selector"​) ​ Pour chacun de ces éléments on doit ajouter une fonction ("Add new selector"​) ​
  
Ligne 83: Ligne 80:
  
 === Cerise ? === === Cerise ? ===
 +
 +{{rtemagicc_p-cerise.jpg.jpg?​20 |}}  Exporter son tableau en csv. 
 +> Sitemap> Export Data as csv > Download ​
 +
 +
  
 {{rtemagicc_p-cerise.jpg.jpg?​20 |}}  On peut exporter ses "​sitemap"​ et donc les échanger (copier/​coller le code suivant) :  {{rtemagicc_p-cerise.jpg.jpg?​20 |}}  On peut exporter ses "​sitemap"​ et donc les échanger (copier/​coller le code suivant) : 
Ligne 89: Ligne 91:
  
  
-{{rtemagicc_p-cerise.jpg.jpg?​20 |}}  exporter son tableau en csv.  
-> Sitemap> Export Data as csv > Download ​ 
  
-Cela devrait vous produire ​le fichier ​suivant ​+Vous pouvez ouvrir ​le fichier ​avec un éditeur, ou un tableur. ​ Intéressant ? Il reste du travail ! 
presentation_de_webscraper_pour_chromium.1449219691.txt.gz · Dernière modification: 2016/09/03 15:37 (modification externe)