Wiki PIREH

====== Différences ====== Ci-dessous, les différences entre deux révisions de la page.

--- reconnaissance_automatique_de_texte [2020/11/18 13:09]
Léo Dumont
+++ reconnaissance_automatique_de_texte [2021/03/07 22:58] (Version actuelle)
Léo Dumont
@@ Ligne 19: / Ligne 19: @@
 Alternative à PDF Sam
 http://jpdftweak.sourceforge.net/
+Beaucoup de ressources consacrées à l'amélioration de la qualité des documents à OCRiser sont présentées dans la documentation de Tesseract : https://tesseract-ocr.github.io/tessdoc/ImproveQuality.html
+Sur le découpage et l'amélioration des pages à partir de documents reliés : https://mzucker.github.io/2016/08/15/page-dewarping.html
 =====Les logiciels d'OCR=====
@@ Ligne 64: / Ligne 68: @@
 Logiciel d'OCR //open source// spécialisé dans le traitement des imprimés anciens, permet la mise en place d'un flux de traitement (//workflow//) combinant plusieurs outils au sein d'une même interface utilisable facilement : https://www.uni-wuerzburg.de/en/zpd/ocr4all/
+===== Librairies d'OCR =====
+==== Kraken ====
+https://github.com/mittagessen/kraken
+==== OCRopy ====
+https://github.com/tianzhi0549/ocropy
 =====Correction et nettoyage des résultats de l'OCR=====