Wiki PIREH

====== Différences ====== Ci-dessous, les différences entre deux révisions de la page.

--- reconnaissance_automatique_de_texte [2015/08/08 18:03]
Léo Dumont [Les logiciels d'OCR]
+++ reconnaissance_automatique_de_texte [2021/03/07 22:58] (Version actuelle)
Léo Dumont
@@ Ligne 5: / Ligne 5: @@
 =====Manipulations préalables à l'OCR=====
-ScanTailor
+====ScanTailor====
+Logiciel de traitement d'images par lot permettant de préparer les fichiers à une OCRisation (découpage, redressement, modification de la résolution, définition des marges, etc...)
+http://scantailor.org/
+====PDF Sam====
+Logiciel de manipulation de fichiers PDF (extraction, fusion, etc...)
+https://pdfsam.org/
+====jPDF Tweak====
+Alternative à PDF Sam
+http://jpdftweak.sourceforge.net/
+Beaucoup de ressources consacrées à l'amélioration de la qualité des documents à OCRiser sont présentées dans la documentation de Tesseract : https://tesseract-ocr.github.io/tessdoc/ImproveQuality.html
+Sur le découpage et l'amélioration des pages à partir de documents reliés : https://mzucker.github.io/2016/08/15/page-dewarping.html
-PDF Sam
 =====Les logiciels d'OCR=====
-Abby FineReader
+====Abby FineReader====
+Logiciel propriétaire d'OCR fonctionnant sur Windows et Mac : https://www.abbyy.com/fr-fr/finereader/
+Pour les étudiants en histoire de Paris 1, il est possible d'utiliser ce logiciel sur certains postes. Contactez-nous directement en cas de besoin.
+Tutoriel pour l'utilisation d'Abby FineReader sur le site de la MSH de Tours : http://msh.univ-tours.fr/sites/default/files/oceriser.pdf
+====OmniPage Pro====
+Alternative à Abby FineReader, c'est un logiciel propriétaire fonctionnant sur Mac et Windows : http://www.nuance.fr/for-individuals/by-product/omnipage/index.htm
+====Tesseract====
+Logiciel libre d'OCR en ligne de commande : https://github.com/tesseract-ocr/tesseract
+Il existe une interface graphique fonctionant sur Mac, Windows et Linux : https://github.com/tesseract4java/tesseract4java
+====Tabula====
+Reconnaissance optique de tableau pour conversion vers fichiers tabulaires (CSV, xls, ods...)
+ http://tabula.technology/
+==== Antigrapheus ====
+Service d'OCR en ligne pour le latin et le grec ancien : https://dcthree.github.io/antigrapheus/
+==== FreeOCR ====
+Service d'OCR en ligne pour langues contemporaines basé sur Tesseract : http://www.free-ocr.com/fr.html
+==== Adobe Scan ====
+Logiciel d'OCR pour smartphone (iPhone et Android) très efficace développé par Adobe : https://acrobat.adobe.com/fr/fr/mobile/scanner-app.html
+==== Transkribus ====
+Plateforme d'OCR sur des textes manuscrits (nécessite la création préalable de données d'apprentissage) : https://transkribus.eu/Transkribus/
+Introduction à Transkribus mise en ligne par Régis Schlagdenhauffen : http://regis-schlagdenhauffen.eu/wp-content/uploads/2018/01/Comment-utiliser-Transkribus-%E2%80%93-en-10-%C3%A9tapes-ou-moins.pdf
+==== OCR4all ====
+Logiciel d'OCR //open source// spécialisé dans le traitement des imprimés anciens, permet la mise en place d'un flux de traitement (//workflow//) combinant plusieurs outils au sein d'une même interface utilisable facilement : https://www.uni-wuerzburg.de/en/zpd/ocr4all/
+===== Librairies d'OCR =====
+==== Kraken ====
+https://github.com/mittagessen/kraken
-OmniPage Pro
+==== OCRopy ====
-Tesseract
+https://github.com/tianzhi0549/ocropy
-Tabula http://tabula.technology/
 =====Correction et nettoyage des résultats de l'OCR=====
 Une fois la reconnaissance automatique terminée il est rare que le fichier texte produit soit directement utilisable, de nombreuses corrections restent à effectuer. Parmi les plus classiques figurent les numéros de page ou bien les césures des mots. Dans ces deux cas comme dans beaucoup d'autres les expressions régulières peuvent être d'une aide précieuse pour éviter des corrections manuelles chronophages, sur ce point n'hésitez pas à consulter la page à propos des [[utiliser_les_expressions_regulieres_pour_creer_son_corpus| expressions régulières pour créer son corpus]].
 Ces dernières ne peuvent toutefois pas tout, il est notamment fréquent que des mots ou quelques lettres soient mal reconnus par les logiciel d'OCR modifiant ainsi totalement le sens du texte. Pour ces cas de figure une relecture du texte reste la seule solution. Pour les documents relativement contemporains, elle peut toutefois être accélérée grâce aux outils de corrections automatiques intégrés dans les logiciels de traitement de texte.

Wiki PIREH

Outils pour utilisateurs

Outils du site

Outils de la page