====== Différences ====== Ci-dessous, les différences entre deux révisions de la page.
| Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
|
reconnaissance_automatique_de_texte [2016/03/01 21:56] Léo Dumont |
reconnaissance_automatique_de_texte [2021/03/07 22:58] (Version actuelle) Léo Dumont |
||
|---|---|---|---|
| Ligne 6: | Ligne 6: | ||
| ====ScanTailor==== | ====ScanTailor==== | ||
| + | |||
| + | Logiciel de traitement d'images par lot permettant de préparer les fichiers à une OCRisation (découpage, redressement, modification de la résolution, définition des marges, etc...) | ||
| + | http://scantailor.org/ | ||
| ====PDF Sam==== | ====PDF Sam==== | ||
| + | |||
| + | Logiciel de manipulation de fichiers PDF (extraction, fusion, etc...) | ||
| + | https://pdfsam.org/ | ||
| ====jPDF Tweak==== | ====jPDF Tweak==== | ||
| - | + | ||
| + | Alternative à PDF Sam | ||
| + | http://jpdftweak.sourceforge.net/ | ||
| + | |||
| + | Beaucoup de ressources consacrées à l'amélioration de la qualité des documents à OCRiser sont présentées dans la documentation de Tesseract : https://tesseract-ocr.github.io/tessdoc/ImproveQuality.html | ||
| + | |||
| + | Sur le découpage et l'amélioration des pages à partir de documents reliés : https://mzucker.github.io/2016/08/15/page-dewarping.html | ||
| =====Les logiciels d'OCR===== | =====Les logiciels d'OCR===== | ||
| ====Abby FineReader==== | ====Abby FineReader==== | ||
| + | |||
| + | Logiciel propriétaire d'OCR fonctionnant sur Windows et Mac : https://www.abbyy.com/fr-fr/finereader/ | ||
| + | Pour les étudiants en histoire de Paris 1, il est possible d'utiliser ce logiciel sur certains postes. Contactez-nous directement en cas de besoin. | ||
| Tutoriel pour l'utilisation d'Abby FineReader sur le site de la MSH de Tours : http://msh.univ-tours.fr/sites/default/files/oceriser.pdf | Tutoriel pour l'utilisation d'Abby FineReader sur le site de la MSH de Tours : http://msh.univ-tours.fr/sites/default/files/oceriser.pdf | ||
| ====OmniPage Pro==== | ====OmniPage Pro==== | ||
| + | |||
| + | Alternative à Abby FineReader, c'est un logiciel propriétaire fonctionnant sur Mac et Windows : http://www.nuance.fr/for-individuals/by-product/omnipage/index.htm | ||
| ====Tesseract==== | ====Tesseract==== | ||
| - | ====Tabula==== | + | Logiciel libre d'OCR en ligne de commande : https://github.com/tesseract-ocr/tesseract |
| + | Il existe une interface graphique fonctionant sur Mac, Windows et Linux : https://github.com/tesseract4java/tesseract4java | ||
| + | |||
| + | ====Tabula==== | ||
| + | Reconnaissance optique de tableau pour conversion vers fichiers tabulaires (CSV, xls, ods...) | ||
| http://tabula.technology/ | http://tabula.technology/ | ||
| + | |||
| + | ==== Antigrapheus ==== | ||
| + | |||
| + | Service d'OCR en ligne pour le latin et le grec ancien : https://dcthree.github.io/antigrapheus/ | ||
| + | |||
| + | ==== FreeOCR ==== | ||
| + | |||
| + | Service d'OCR en ligne pour langues contemporaines basé sur Tesseract : http://www.free-ocr.com/fr.html | ||
| + | |||
| + | ==== Adobe Scan ==== | ||
| + | |||
| + | Logiciel d'OCR pour smartphone (iPhone et Android) très efficace développé par Adobe : https://acrobat.adobe.com/fr/fr/mobile/scanner-app.html | ||
| + | |||
| + | ==== Transkribus ==== | ||
| + | |||
| + | Plateforme d'OCR sur des textes manuscrits (nécessite la création préalable de données d'apprentissage) : https://transkribus.eu/Transkribus/ | ||
| + | |||
| + | Introduction à Transkribus mise en ligne par Régis Schlagdenhauffen : http://regis-schlagdenhauffen.eu/wp-content/uploads/2018/01/Comment-utiliser-Transkribus-%E2%80%93-en-10-%C3%A9tapes-ou-moins.pdf | ||
| + | |||
| + | ==== OCR4all ==== | ||
| + | |||
| + | Logiciel d'OCR //open source// spécialisé dans le traitement des imprimés anciens, permet la mise en place d'un flux de traitement (//workflow//) combinant plusieurs outils au sein d'une même interface utilisable facilement : https://www.uni-wuerzburg.de/en/zpd/ocr4all/ | ||
| + | |||
| + | |||
| + | ===== Librairies d'OCR ===== | ||
| + | |||
| + | |||
| + | ==== Kraken ==== | ||
| + | |||
| + | https://github.com/mittagessen/kraken | ||
| + | |||
| + | ==== OCRopy ==== | ||
| + | |||
| + | https://github.com/tianzhi0549/ocropy | ||
| =====Correction et nettoyage des résultats de l'OCR===== | =====Correction et nettoyage des résultats de l'OCR===== | ||