====== Différences ====== Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
presentation_de_webscraper_pour_chromium [2015/12/04 09:00] Léo Dumont |
presentation_de_webscraper_pour_chromium [2016/09/03 15:36] (Version actuelle) |
||
---|---|---|---|
Ligne 11: | Ligne 11: | ||
=== Un exemple le blog : Melenchon.fr === | === Un exemple le blog : Melenchon.fr === | ||
- | Notre **objectif** : fabriquer un tableau avec les titre, les dates, les url et les textes des articles publiés sur le blog | + | Notre **objectif** : fabriquer un tableau avec les titres, les dates, les url et les textes des articles publiés sur le blog |
== Préparer == | == Préparer == | ||
Ligne 35: | Ligne 35: | ||
- il doit récupérer du texte, des images, des dates qui sont entre des balises pour afficher leur contenu dans un tableau final, qui sera notre résultat. | - il doit récupérer du texte, des images, des dates qui sont entre des balises pour afficher leur contenu dans un tableau final, qui sera notre résultat. | ||
- | 1. Le programme doit se déplacer jusqu'aux articles | + | 1. Le programme doit atteindre seul l'information que nous souhaitons enregistrer et pour cela il doit suivre une suite de liens. |
On ajoute une fonction à l'aide de "Add new selector". | On ajoute une fonction à l'aide de "Add new selector". | ||
Ligne 59: | Ligne 59: | ||
On fabrique une nouvelle méthode qui va s'appliquer sur la nouvelle page (http://melenchon.fr/categorie/tous-les-articles/) dont voici les paramètres : | On fabrique une nouvelle méthode qui va s'appliquer sur la nouvelle page (http://melenchon.fr/categorie/tous-les-articles/) dont voici les paramètres : | ||
- | * Id : **VerslesBillets** | + | * Id : **VerslesBillets** (l'idée est que le petit robot atteigne les billets) |
* Type : **Link** | * Type : **Link** | ||
* Selector : **Select** C'est ici qu'il faut prendre garde ! Il faut garder la touche "contrôle" enfoncé pour séléctionner plusieurs "Lire la suite" , comme ceci : | * Selector : **Select** C'est ici qu'il faut prendre garde ! Il faut garder la touche "contrôle" enfoncé pour séléctionner plusieurs "Lire la suite" , comme ceci : | ||
Ligne 67: | Ligne 67: | ||
* Parent Selectors : **VerslesArticles** | * Parent Selectors : **VerslesArticles** | ||
+ | 3. Enfin il faut fabriquer les fonctions qui vont récupérer les informations que nous souhaitons importer et que l'on trouve sur la description et dans les billets du blog. Ainsi dans ce cas précis nous souhaitons : | ||
+ | * titre (dans ce blog précisément faites attention à récupérer l'élément : div.base-box) | ||
+ | * date | ||
+ | * texte | ||
+ | Pour chacun de ces éléments on doit ajouter une fonction ("Add new selector") | ||
+ | |||
+ | 4. Dernier moment : lancer le petit programme | ||
+ | > Sitemap(blogmelanchon) > Scrape > "Start scraping" et soyez patient | ||
+ | |||
+ | |||
+ | |||
+ | === Cerise ? === | ||
+ | |||
+ | {{rtemagicc_p-cerise.jpg.jpg?20 |}} Exporter son tableau en csv. | ||
+ | > Sitemap> Export Data as csv > Download | ||
+ | |||
+ | |||
+ | |||
+ | {{rtemagicc_p-cerise.jpg.jpg?20 |}} On peut exporter ses "sitemap" et donc les échanger (copier/coller le code suivant) : | ||
+ | |||
+ | > {"startUrl":"http://melenchon.fr/","selectors":[{"parentSelectors":["_root"],"type":"SelectorLink","multiple":true,"id":"versArticles","selector":"ul.main-menu li#menu-item-800.menu-item a","delay":""},{"parentSelectors":["versArticles"],"type":"SelectorLink","multiple":true,"id":"VersBillet","selector":"a.read-more-link","delay":""},{"parentSelectors":["VersBillet"],"type":"SelectorText","multiple":false,"id":"Texte","selector":"div.base-box","regex":"","delay":""},{"parentSelectors":["VersBillet"],"type":"SelectorText","multiple":true,"id":"Titre","selector":"h1.post-tile","regex":"","delay":""},{"parentSelectors":["VersBillet"],"type":"SelectorText","multiple":false,"id":"Date","selector":"time.updated","regex":"","delay":""}],"_id":"blogmelanchon"} | ||
+ | |||
+ | |||
+ | |||
+ | Vous pouvez ouvrir le fichier avec un éditeur, ou un tableur. Intéressant ? Il reste du travail ! |