Wiki PIREH

Des ressources pour utiliser le numérique en histoire

Outils pour utilisateurs

Outils du site


reconnaissance_automatique_de_texte

====== Différences ====== Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
reconnaissance_automatique_de_texte [2015/08/07 21:26]
Léo Dumont [Les logiciels d'OCR]
reconnaissance_automatique_de_texte [2021/03/07 22:58] (Version actuelle)
Léo Dumont
Ligne 5: Ligne 5:
 =====Manipulations préalables à l'​OCR===== =====Manipulations préalables à l'​OCR=====
  
-ScanTailor+====ScanTailor==== 
 + 
 +Logiciel de traitement d'​images par lot permettant de préparer les fichiers à une OCRisation (découpage,​ redressement,​ modification de la résolution,​ définition des marges, etc...) 
 +http://​scantailor.org/​ 
 + 
 +====PDF Sam==== 
 + 
 +Logiciel de manipulation de fichiers PDF (extraction,​ fusion, etc...) 
 +https://​pdfsam.org/​ 
 + 
 +====jPDF Tweak==== 
 + 
 +Alternative à PDF Sam 
 +http://​jpdftweak.sourceforge.net/​ 
 + 
 +Beaucoup de ressources consacrées à l'​amélioration de la qualité des documents à OCRiser sont présentées dans la documentation de Tesseract : https://​tesseract-ocr.github.io/​tessdoc/​ImproveQuality.html 
 + 
 +Sur le découpage et l'​amélioration des pages à partir de documents reliés : https://​mzucker.github.io/​2016/​08/​15/​page-dewarping.html
  
-PDF Sam 
 =====Les logiciels d'​OCR===== =====Les logiciels d'​OCR=====
  
-Abby FineReader+====Abby FineReader==== 
 + 
 +Logiciel propriétaire d'OCR fonctionnant sur Windows et Mac : https://​www.abbyy.com/​fr-fr/​finereader/​ 
 +Pour les étudiants en histoire de Paris 1, il est possible d'​utiliser ce logiciel sur certains postes. Contactez-nous directement en cas de besoin. 
 + 
 +Tutoriel pour l'​utilisation d'Abby FineReader sur le site de la MSH de Tours : http://​msh.univ-tours.fr/​sites/​default/​files/​oceriser.pdf 
 + 
 +====OmniPage Pro==== 
 + 
 +Alternative à Abby FineReader, c'est un logiciel propriétaire fonctionnant sur Mac et Windows : http://​www.nuance.fr/​for-individuals/​by-product/​omnipage/​index.htm 
 + 
 +====Tesseract==== 
 + 
 +Logiciel libre d'OCR en ligne de commande : https://​github.com/​tesseract-ocr/​tesseract 
 + 
 +Il existe une interface graphique fonctionant sur Mac, Windows et Linux : https://​github.com/​tesseract4java/​tesseract4java 
 + 
 +====Tabula==== 
 +Reconnaissance optique de tableau pour conversion vers fichiers tabulaires (CSV, xls, ods...) 
 + ​http://​tabula.technology/​ 
 + 
 +==== Antigrapheus ==== 
 + 
 +Service d'OCR en ligne pour le latin et le grec ancien : https://​dcthree.github.io/​antigrapheus/​ 
 + 
 +==== FreeOCR ==== 
 + 
 +Service d'OCR en ligne pour langues contemporaines basé sur Tesseract : http://​www.free-ocr.com/​fr.html 
 + 
 +==== Adobe Scan ==== 
 + 
 +Logiciel d'OCR pour smartphone (iPhone et Android) très efficace développé par Adobe : https://​acrobat.adobe.com/​fr/​fr/​mobile/​scanner-app.html 
 + 
 +==== Transkribus ==== 
 + 
 +Plateforme d'OCR sur des textes manuscrits (nécessite la création préalable de données d'​apprentissage) : https://​transkribus.eu/​Transkribus/​ 
 + 
 +Introduction à Transkribus mise en ligne par Régis Schlagdenhauffen : http://​regis-schlagdenhauffen.eu/​wp-content/​uploads/​2018/​01/​Comment-utiliser-Transkribus-%E2%80%93-en-10-%C3%A9tapes-ou-moins.pdf 
 + 
 +==== OCR4all ==== 
 + 
 +Logiciel d'OCR //open source// spécialisé dans le traitement des imprimés anciens, permet la mise en place d'un flux de traitement (//​workflow//​) combinant plusieurs outils au sein d'une même interface utilisable facilement : https://​www.uni-wuerzburg.de/​en/​zpd/​ocr4all/​ 
 + 
 + 
 +===== Librairies d'OCR ===== 
 + 
 + 
 +==== Kraken ==== 
 + 
 +https://​github.com/​mittagessen/​kraken
  
-OmniPage Pro+==== OCRopy ====
  
-Tesseract+https://​github.com/​tianzhi0549/​ocropy
  
 =====Correction et nettoyage des résultats de l'​OCR===== =====Correction et nettoyage des résultats de l'​OCR=====
reconnaissance_automatique_de_texte.1438975611.txt.gz · Dernière modification: 2016/09/03 15:37 (modification externe)