**Ceci est une ancienne révision du document !** ----
Lors de la constitution d'un corpus textométrique, la question de l'acquisition des textes est un problème fréquent auquel est confronté l'historien. Souvent les sources textuelles ont été photographiées manuellement par le chercheur, beaucoup sont aussi disponibles sous forme d'images ou de fichiers PDF téléchargeables sur les sites de bibliothèques numériques. Dans ces différents cas la difficulté est la même : comment transformer ces images en documents textes qui puissent être importés dans un logiciel de textométrie ? Les éléments ci-dessous présentent quelques solutions pour résoudre ce problème. =====Numérisation des sources textuelles===== =====Manipulations préalables à l'OCR===== ====ScanTailor==== Logiciel de traitement d'images par lot permettant de préparer les fichiers à une OCRisation (découpage, redressement, modification de la résolution, définition des marges, etc...) http://scantailor.org/ ====PDF Sam==== Logiciel de manipulation de fichiers PDF (extraction, fusion, etc...) https://pdfsam.org/ ====jPDF Tweak==== Alternative à PDF Sam http://jpdftweak.sourceforge.net/ =====Les logiciels d'OCR===== ====Abby FineReader==== Logiciel propriétaire d'OCR fonctionnant sur Windows et Mac : https://www.abbyy.com/fr-fr/finereader/ Pour les étudiants en histoire de Paris 1, il est possible d'utiliser ce logiciel sur certains postes. Contactez-nous directement en cas de besoin. Tutoriel pour l'utilisation d'Abby FineReader sur le site de la MSH de Tours : http://msh.univ-tours.fr/sites/default/files/oceriser.pdf ====OmniPage Pro==== Alternative à Abby FineReader, c'est un logiciel propriétaire fonctionnant sur Mac et Windows : http://www.nuance.fr/for-individuals/by-product/omnipage/index.htm ====Tesseract==== Logiciel libre d'OCR en ligne de commande : https://github.com/tesseract-ocr/tesseract Il existe une interface graphique fonctionant sur Mac, Windows et Linux : https://github.com/tesseract4java/tesseract4java ====Tabula==== Reconnaissance optique de tableau pour conversion vers fichiers tabulaires (CSV, xls, ods...) http://tabula.technology/ ==== Antigrapheus ==== Service d'OCR en ligne pour le latin et le grec ancien : https://dcthree.github.io/antigrapheus/ ==== FreeOCR ==== Service d'OCR en ligne pour langues contemporaines basé sur Tesseract : http://www.free-ocr.com/ ==== Transkribus ==== Plateforme d'OCR sur des textes manuscrits (nécessite la création préalable de données d'apprentissage) : https://transkribus.eu/Transkribus/ Introduction à Transkribus mise en ligne par Régis Schlagdenhauffen : http://regis-schlagdenhauffen.eu/wp-content/uploads/2018/01/Comment-utiliser-Transkribus-%E2%80%93-en-10-%C3%A9tapes-ou-moins.pdf =====Correction et nettoyage des résultats de l'OCR===== Une fois la reconnaissance automatique terminée il est rare que le fichier texte produit soit directement utilisable, de nombreuses corrections restent à effectuer. Parmi les plus classiques figurent les numéros de page ou bien les césures des mots. Dans ces deux cas comme dans beaucoup d'autres les expressions régulières peuvent être d'une aide précieuse pour éviter des corrections manuelles chronophages, sur ce point n'hésitez pas à consulter la page à propos des [[utiliser_les_expressions_regulieres_pour_creer_son_corpus| expressions régulières pour créer son corpus]]. Ces dernières ne peuvent toutefois pas tout, il est notamment fréquent que des mots ou quelques lettres soient mal reconnus par les logiciel d'OCR modifiant ainsi totalement le sens du texte. Pour ces cas de figure une relecture du texte reste la seule solution. Pour les documents relativement contemporains, elle peut toutefois être accélérée grâce aux outils de corrections automatiques intégrés dans les logiciels de traitement de texte.