Wiki PIREH

Des ressources pour utiliser le numérique en histoire

Outils pour utilisateurs

Outils du site


reconnaissance_automatique_de_texte

Lors de la constitution d'un corpus textométrique, la question de l'acquisition des textes est un problème fréquent auquel est confronté l'historien. Souvent les sources textuelles ont été photographiées manuellement par le chercheur, beaucoup sont aussi disponibles sous forme d'images ou de fichiers PDF téléchargeables sur les sites de bibliothèques numériques. Dans ces différents cas la difficulté est la même : comment transformer ces images en documents textes qui puissent être importés dans un logiciel de textométrie ? Les éléments ci-dessous présentent quelques solutions pour résoudre ce problème.

Numérisation des sources textuelles

Manipulations préalables à l'OCR

ScanTailor

Logiciel de traitement d'images par lot permettant de préparer les fichiers à une OCRisation (découpage, redressement, modification de la résolution, définition des marges, etc…) http://scantailor.org/

PDF Sam

Logiciel de manipulation de fichiers PDF (extraction, fusion, etc…) https://pdfsam.org/

jPDF Tweak

Alternative à PDF Sam http://jpdftweak.sourceforge.net/

Les logiciels d'OCR

Abby FineReader

Logiciel propriétaire d'OCR fonctionnant sur Windows et Mac : https://www.abbyy.com/fr-fr/finereader/ Pour les étudiants en histoire de Paris 1, il est possible d'utiliser ce logiciel sur certains postes. Contactez-nous directement en cas de besoin.

Tutoriel pour l'utilisation d'Abby FineReader sur le site de la MSH de Tours : http://msh.univ-tours.fr/sites/default/files/oceriser.pdf

OmniPage Pro

Alternative à Abby FineReader, c'est un logiciel propriétaire fonctionnant sur Mac et Windows : http://www.nuance.fr/for-individuals/by-product/omnipage/index.htm

Tesseract

Logiciel libre d'OCR en ligne de commande : https://github.com/tesseract-ocr/tesseract

Il existe une interface graphique fonctionant sur Mac, Windows et Linux : https://github.com/tesseract4java/tesseract4java

Tabula

Reconnaissance optique de tableau pour conversion vers fichiers tabulaires (CSV, xls, ods…) http://tabula.technology/

Antigrapheus

Service d'OCR en ligne pour le latin et le grec ancien : https://dcthree.github.io/antigrapheus/

FreeOCR

Service d'OCR en ligne pour langues contemporaines basé sur Tesseract : http://www.free-ocr.com/fr.html

Transkribus

Plateforme d'OCR sur des textes manuscrits (nécessite la création préalable de données d'apprentissage) : https://transkribus.eu/Transkribus/

Introduction à Transkribus mise en ligne par Régis Schlagdenhauffen : http://regis-schlagdenhauffen.eu/wp-content/uploads/2018/01/Comment-utiliser-Transkribus-%E2%80%93-en-10-%C3%A9tapes-ou-moins.pdf

Correction et nettoyage des résultats de l'OCR

Une fois la reconnaissance automatique terminée il est rare que le fichier texte produit soit directement utilisable, de nombreuses corrections restent à effectuer. Parmi les plus classiques figurent les numéros de page ou bien les césures des mots. Dans ces deux cas comme dans beaucoup d'autres les expressions régulières peuvent être d'une aide précieuse pour éviter des corrections manuelles chronophages, sur ce point n'hésitez pas à consulter la page à propos des expressions régulières pour créer son corpus. Ces dernières ne peuvent toutefois pas tout, il est notamment fréquent que des mots ou quelques lettres soient mal reconnus par les logiciel d'OCR modifiant ainsi totalement le sens du texte. Pour ces cas de figure une relecture du texte reste la seule solution. Pour les documents relativement contemporains, elle peut toutefois être accélérée grâce aux outils de corrections automatiques intégrés dans les logiciels de traitement de texte.

reconnaissance_automatique_de_texte.txt · Dernière modification: 2018/01/30 15:27 par Léo Dumont