Wiki PIREH

Des ressources pour utiliser le numérique en histoire

Outils pour utilisateurs

Outils du site


reconnaissance_automatique_de_texte

Lors de la constitution d'un corpus textométrique, la question de l'acquisition des textes est un problème fréquent auquel est confronté l'historien. Souvent les sources textuelles ont été photographiées manuellement par le chercheur, beaucoup sont aussi disponibles sous forme d'images ou de fichiers PDF téléchargeables sur les sites de bibliothèques numériques. Dans ces différents cas la difficulté est la même : comment transformer ces images en documents textes qui puissent être importés dans un logiciel de textométrie ? Les éléments ci-dessous présentent quelques solutions pour résoudre ce problème.

Numérisation des sources textuelles

Manipulations préalables à l'OCR

ScanTailor

PDF Sam

jPDF Tweak

Les logiciels d'OCR

Abby FineReader

Tutoriel pour l'utilisation d'Abby FineReader sur le site de la MSH de Tours : http://msh.univ-tours.fr/sites/default/files/oceriser.pdf

OmniPage Pro

Tesseract

Tabula

Correction et nettoyage des résultats de l'OCR

Une fois la reconnaissance automatique terminée il est rare que le fichier texte produit soit directement utilisable, de nombreuses corrections restent à effectuer. Parmi les plus classiques figurent les numéros de page ou bien les césures des mots. Dans ces deux cas comme dans beaucoup d'autres les expressions régulières peuvent être d'une aide précieuse pour éviter des corrections manuelles chronophages, sur ce point n'hésitez pas à consulter la page à propos des expressions régulières pour créer son corpus. Ces dernières ne peuvent toutefois pas tout, il est notamment fréquent que des mots ou quelques lettres soient mal reconnus par les logiciel d'OCR modifiant ainsi totalement le sens du texte. Pour ces cas de figure une relecture du texte reste la seule solution. Pour les documents relativement contemporains, elle peut toutefois être accélérée grâce aux outils de corrections automatiques intégrés dans les logiciels de traitement de texte.

reconnaissance_automatique_de_texte.txt · Dernière modification: 2016/09/03 15:36 (modification externe)