Wiki PIREH

Des ressources pour utiliser le numérique en histoire

Outils pour utilisateurs

Outils du site


reconnaissance_automatique_de_texte

====== Différences ====== Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
reconnaissance_automatique_de_texte [2015/12/04 05:46]
Stéphane Lamassé
reconnaissance_automatique_de_texte [2021/03/07 22:58] (Version actuelle)
Léo Dumont
Ligne 6: Ligne 6:
  
 ====ScanTailor==== ====ScanTailor====
 +
 +Logiciel de traitement d'​images par lot permettant de préparer les fichiers à une OCRisation (découpage,​ redressement,​ modification de la résolution,​ définition des marges, etc...)
 +http://​scantailor.org/​
  
 ====PDF Sam==== ====PDF Sam====
- + 
 +Logiciel de manipulation de fichiers PDF (extraction,​ fusion, etc...) 
 +https://​pdfsam.org/​ 
 + 
 +====jPDF Tweak==== 
 + 
 +Alternative à PDF Sam 
 +http://​jpdftweak.sourceforge.net/​ 
 + 
 +Beaucoup de ressources consacrées à l'​amélioration de la qualité des documents à OCRiser sont présentées dans la documentation de Tesseract : https://​tesseract-ocr.github.io/​tessdoc/​ImproveQuality.html 
 + 
 +Sur le découpage et l'​amélioration des pages à partir de documents reliés : https://​mzucker.github.io/​2016/​08/​15/​page-dewarping.html 
 =====Les logiciels d'​OCR===== =====Les logiciels d'​OCR=====
  
 ====Abby FineReader==== ====Abby FineReader====
 +
 +Logiciel propriétaire d'OCR fonctionnant sur Windows et Mac : https://​www.abbyy.com/​fr-fr/​finereader/​
 +Pour les étudiants en histoire de Paris 1, il est possible d'​utiliser ce logiciel sur certains postes. Contactez-nous directement en cas de besoin.
  
 Tutoriel pour l'​utilisation d'Abby FineReader sur le site de la MSH de Tours : http://​msh.univ-tours.fr/​sites/​default/​files/​oceriser.pdf Tutoriel pour l'​utilisation d'Abby FineReader sur le site de la MSH de Tours : http://​msh.univ-tours.fr/​sites/​default/​files/​oceriser.pdf
  
 ====OmniPage Pro==== ====OmniPage Pro====
 +
 +Alternative à Abby FineReader, c'est un logiciel propriétaire fonctionnant sur Mac et Windows : http://​www.nuance.fr/​for-individuals/​by-product/​omnipage/​index.htm
  
 ====Tesseract==== ====Tesseract====
  
-====Tabula====+Logiciel libre d'OCR en ligne de commande : https://​github.com/​tesseract-ocr/​tesseract
  
 +Il existe une interface graphique fonctionant sur Mac, Windows et Linux : https://​github.com/​tesseract4java/​tesseract4java
 +
 +====Tabula====
 +Reconnaissance optique de tableau pour conversion vers fichiers tabulaires (CSV, xls, ods...)
  ​http://​tabula.technology/​  ​http://​tabula.technology/​
 +
 +==== Antigrapheus ====
 +
 +Service d'OCR en ligne pour le latin et le grec ancien : https://​dcthree.github.io/​antigrapheus/​
 +
 +==== FreeOCR ====
 +
 +Service d'OCR en ligne pour langues contemporaines basé sur Tesseract : http://​www.free-ocr.com/​fr.html
 +
 +==== Adobe Scan ====
 +
 +Logiciel d'OCR pour smartphone (iPhone et Android) très efficace développé par Adobe : https://​acrobat.adobe.com/​fr/​fr/​mobile/​scanner-app.html
 +
 +==== Transkribus ====
 +
 +Plateforme d'OCR sur des textes manuscrits (nécessite la création préalable de données d'​apprentissage) : https://​transkribus.eu/​Transkribus/​
 +
 +Introduction à Transkribus mise en ligne par Régis Schlagdenhauffen : http://​regis-schlagdenhauffen.eu/​wp-content/​uploads/​2018/​01/​Comment-utiliser-Transkribus-%E2%80%93-en-10-%C3%A9tapes-ou-moins.pdf
 +
 +==== OCR4all ====
 +
 +Logiciel d'OCR //open source// spécialisé dans le traitement des imprimés anciens, permet la mise en place d'un flux de traitement (//​workflow//​) combinant plusieurs outils au sein d'une même interface utilisable facilement : https://​www.uni-wuerzburg.de/​en/​zpd/​ocr4all/​
 +
 +
 +===== Librairies d'OCR =====
 +
 +
 +==== Kraken ====
 +
 +https://​github.com/​mittagessen/​kraken
 +
 +==== OCRopy ====
 +
 +https://​github.com/​tianzhi0549/​ocropy
  
 =====Correction et nettoyage des résultats de l'​OCR===== =====Correction et nettoyage des résultats de l'​OCR=====
reconnaissance_automatique_de_texte.1449204360.txt.gz · Dernière modification: 2016/09/03 15:37 (modification externe)