Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
1421 connectés 

  FORUM HardWare.fr
  Linux et OS Alternatifs
  Logiciels

  L'OCR sous GNU/Linux parlons-en !

 


 Mot :   Pseudo :  
 
Bas de page
Auteur Sujet :

L'OCR sous GNU/Linux parlons-en !

n°617653
mirtouf
Light is right !
Posté le 09-01-2005 à 16:34:28  profilanswer
 

Voilà le sujet que je compte aborder : les logiciels de reconnaissance de caractères, disponibles sous GNU/Linux.

 

Commençons par les forces en présence :

 

GOCR

 

OCRAD

 

Clara OCR

 

Un des derniers qui vient d'être libéré :
Tesseract-OCR

 

En fait il s'agit d'une technologie vieille de 10 ans de la part de HP (voir DLFP : http://linuxfr.org/2006/10/07/21437.html ) mais il reste la version libre (depuis la disparition de la bibliothèque Migraine) la plus aboutie à ce jour.
97% de reconnaissance sur la page de teste de linux.com

 

Tesseract a été porté en bibliothèque javascript (pour le lulz ?):

 

Les 3 premiers sont libres, les derniers sont des applications commerciales :
Kadmos

 

macomboh nous informe que pour OCR XTR

Citation :

1 seul logiciel d 'OCR est performant sous linux,(du niveau de finereader)
il s'agit d'OCR XTR de vividata
malheureusement il n'est pas OPEN ,et sa licence coute plus que trés cher (dans les 2475 $)
on peut cependant obtenir une licence d'essai valable 1 mois sur leur site

 

Le petit dernier :
Ocropy, feu Ocropus écrit en python
ou en C++
Libre, licence Apache 2.0
Encore en développement.

 

Maintenant, parlons des logiciels en eux-mêmes :

 

GOCR : Ne nécessite pas de phase d'apprentissage mais conserve la mise en forme. Les résultats sont corrects mais les caractères accentués semblent poser problème.

 

OCRAD : Ne nécessite pas de phase d'apprentissage, la disposition saute et les caractères accentués posent des difficultés. Ou alors j'ai loupé un truc.

 

Clara OCR : Bien qu'il nécessite une phase d'apprentissage, les résultas obtenus sont les meilleurs obtenus parmi ces 3 logiciels. Toutefois, après l'analyse certains caractères nécessitent d'être repris.

 

Kadmos : Pas testé.

 

Ocropus : Pas testé.

 

Des liens instructifs (merci Sorbus_)
tesseract, gscan2pdf,
sur le forum Ubuntu et sur Linux on the root

 

Logiciels complémentaires :

 

Unpaper

 

Il permet de s'affranchir des problèmes liés à une mauvaise photocopie et qui a pour conséquence de rendre les textes difficilement traitables par un logiciel d'OCR.

 


Mes questions :

 

1 - Quels sont vos astuces pour améliorer vos résultats ?

 

2 - D'autres viendront ! :D

 

:hello:


Message édité par mirtouf le 13-10-2016 à 09:17:21

---------------
-~- Libérez Datoune ! -~- Camarade, toi aussi rejoins le FLD pour que la flamme de la Révolution ne s'éteigne pas ! -~- A VENDRE
mood
Publicité
Posté le 09-01-2005 à 16:34:28  profilanswer
 

n°617674
fl0ups
東京 - パリ - SLP
Posté le 09-01-2005 à 16:58:57  profilanswer
 

J'avais essayé gocr pour convertir les sous titres de DVD, et c'etait vraiment pas fameux, même en utilisant le mode d'apprentissage. Parmis les problèmes les plus troublants, il avait tendance à rajouter plein d'espaces entre les lettres, sans que je comprenne pourquoi, et ce malgré l'essai de plusieurs valeurs dans le fichier de conf. De mémoire, malgré l'utilisation d'un doci français, il était très affecté par le grand classique L minuscule = I majuscule


---------------
Fluctuat nec mergitur
n°617676
mirtouf
Light is right !
Posté le 09-01-2005 à 17:02:11  profilanswer
 

Je n'ai pas trop remarqué le problème d'espaces ajoutés mais la confusion I=L est courante.


---------------
-~- Libérez Datoune ! -~- Camarade, toi aussi rejoins le FLD pour que la flamme de la Révolution ne s'éteigne pas ! -~- A VENDRE
n°617695
macomboh
Posté le 09-01-2005 à 17:27:17  profilanswer
 

1 seul logiciel d 'OCR est performant sous linux,(du niveau de finereader)
il s'agit d'OCR XTR de vividata:
http://www.vividata.com/ds_xtrapi_overview.html
malheureusement il n'est pas OPEN ,et sa licence coute plus que trés cher (dans les 2475 $)
on peut cependant obtenir une licence d'essai valable 1 mois sur leur site

n°617699
mirtouf
Light is right !
Posté le 09-01-2005 à 17:31:37  profilanswer
 
n°618093
mirtouf
Light is right !
Posté le 10-01-2005 à 15:40:54  profilanswer
 
n°618536
mirtouf
Light is right !
Posté le 11-01-2005 à 13:05:24  profilanswer
 

No one else ?

n°619893
mirtouf
Light is right !
Posté le 13-01-2005 à 21:26:52  profilanswer
 

Est-ce réservé à l'31337 ?


---------------
-~- Libérez Datoune ! -~- Camarade, toi aussi rejoins le FLD pour que la flamme de la Révolution ne s'éteigne pas ! -~- A VENDRE
n°619895
j_c_p
Linux user
Posté le 13-01-2005 à 21:28:37  profilanswer
 

tiens, ça m'interesse, mais je n'ai pas encore essayé ;).

n°619899
mirtouf
Light is right !
Posté le 13-01-2005 à 21:32:34  profilanswer
 

j_c_p a écrit :

tiens, ça m'interesse, mais je n'ai pas encore essayé ;).


Si tu pouvais me payer une license XTR OCR par la même occasion...


---------------
-~- Libérez Datoune ! -~- Camarade, toi aussi rejoins le FLD pour que la flamme de la Révolution ne s'éteigne pas ! -~- A VENDRE
mood
Publicité
Posté le 13-01-2005 à 21:32:34  profilanswer
 

n°619903
j_c_p
Linux user
Posté le 13-01-2005 à 21:36:09  profilanswer
 

mirtouf a écrit :

Si tu pouvais me payer une license XTR OCR par la même occasion...


Pour arriver, il faut mettre de l'eau dans son vin
jusqu'à ce qu'il n'y ait plus de vin.
        -+- Jules Renard, Journal -+-


:p
 
édit : remarque que  

Le plus court chemin entre deux vérités dans le domaine réel passe par
le domaine complexe.
        -+- Jacques Hadamard -+-


Message édité par j_c_p le 13-01-2005 à 21:37:19
n°621476
mirtouf
Light is right !
Posté le 16-01-2005 à 22:33:14  profilanswer
 

Un ptit up pour le dimanche soir ? [:tatanka]


---------------
-~- Libérez Datoune ! -~- Camarade, toi aussi rejoins le FLD pour que la flamme de la Révolution ne s'éteigne pas ! -~- A VENDRE
n°622228
macomboh
Posté le 18-01-2005 à 08:58:40  profilanswer
 

mirtouf a écrit :

Si tu pouvais me payer une license XTR OCR par la même occasion...


 
tu peux aussi fonctionner ad vitam eternam avec la licence d'évaluation
grace à un script du type
 
date mmjjaa   , mettre à une date ancienne
ocrxtr        , commande d'OCR
date  mmjja   , remetrre la bonne date du jour

n°624055
mirtouf
Light is right !
Posté le 21-01-2005 à 16:42:05  profilanswer
 
n°849414
mirtouf
Light is right !
Posté le 07-10-2006 à 13:30:05  profilanswer
 
n°849421
Mjules
Modérateur
Parle dans le vide
Posté le 07-10-2006 à 13:45:23  profilanswer
 

Il y a tesseract OCR qui a été libéré cet été et qui semble pas mal bien qu'encore limité :
http://applications.linux.com/arti [...] 251&tid=47


---------------
Celui qui pose une question est idiot 5 minutes. Celui qui n'en pose pas le reste toute sa vie. |  Membre du grand complot pharmaceutico-médico-scientifico-judéo-maçonnique.
n°994157
crouik
Posté le 22-12-2007 à 13:34:56  profilanswer
 

"Tesseract est un moteur de reconnaissance simple, dans le sens où il ne fournit pas d'interface utilisateur, n'effectue pas d'analyse de la mise en page et ne formate pas les résultats qu'il produit.
Une autre de ses limitations est qu'il reconnait uniquement les caractères US-ASCII et donc ne fonctionne correctement qu'avec des documents rédigés en langue anglaise. Enfin, l'acquisition de documents en niveaux de gris ou en couleurs reste difficile.
"
 
bon il existe les rpm pour mandriva, mais vu la limitation ... (mes scans sont en français)
 
En attendant mieux, je me sers de SimpleOCR (pas libre bien sur) mais gratuit pour la partie texte "machine".
Il tourne "correctement" avec wine, il inclus un correcteur orthographique (avec suggestion) met en sur brillance le texte à corriger dans le document scanné comme dans le document txt.
 
ça peut dépanner celui qui n'a vraiment plus de windows sous la main et qui ne fait pas d'OCR trop souvent.

n°994195
scvo0ne
Posté le 22-12-2007 à 15:13:35  profilanswer
 

Quelqu'un a testé ocropus ( http://code.google.com/p/ocropus/ ) ?

n°994382
mirtouf
Light is right !
Posté le 23-12-2007 à 12:15:06  profilanswer
 

noté, c'est encore un logiciel alpha ?


---------------
-~- Libérez Datoune ! -~- Camarade, toi aussi rejoins le FLD pour que la flamme de la Révolution ne s'éteigne pas ! -~- A VENDRE
n°1005590
Sorbus_
Posté le 26-01-2008 à 15:09:29  profilanswer
 

Bonjour les amis,
 
Un petit tour par ici, parce que nous nous intéressons aux mêmes choses.
Ocropus, oui, je crois que c'est encore alpha... Mais ça devrait évoluer assez vite... sans doute. Ce n'est pas à proprement parler un logiciel, mais un système complet, utilisant plusieurs ressources... dont pour l'instant le logiciel de reconnaissance optique de caractère tesseract.
 
Au sujet de l'ocr sous Linux et des évolutions les plus récentes, je mets ici quelques liens utiles :
tesseract, gscan2pdf,  
sur le forum Ubuntu et sur Linux on the root
 
... ceci pour continuer à nous informer de temps en temps de nos découvertes et de nos tests.  ;)


Message édité par Sorbus_ le 26-01-2008 à 15:15:39
n°1005634
mirtouf
Light is right !
Posté le 26-01-2008 à 20:49:04  profilanswer
 
n°1005687
scvo0ne
Posté le 27-01-2008 à 12:17:48  profilanswer
 

J'ai découvert unpaper pour améliorer les résultat des progs d'ocr ( http://unpaper.berlios.de/ ).

n°1005705
mirtouf
Light is right !
Posté le 27-01-2008 à 14:22:00  profilanswer
 
n°1005724
Sorbus_
Posté le 27-01-2008 à 17:30:02  profilanswer
 

Et unpaper, comme tesseract, sont utilisés et disponibles dans l'interface graphique gscan2pdf. On peut donc scanner un document avec gscan2pdf, le traiter par unpaper et effectuer la ROC avec tesseract d'un seul mouvement. Il ne nous manque qu'un bon mode d'emploi en français pour utiliser au mieux ces outils.

n°1005871
Ghost_mh
To Be Or Not To Be : TO BE
Posté le 28-01-2008 à 14:21:45  profilanswer
 

Bonjour tous le monde, je vais bientôt commencer mon PFE (Projet de Fin d'Etude) et ma tache consiste à réaliser une application embarquée pour une caméraIP, parmi les modules qui existent, il y en a un qui réalise la lecture de plaque d'immatriculation, donc j'ai bien besoin d'un lecteur OCR pour linux dont je peux l'intégrer dans mon code. Je suis encore en recherche, donc s'il y en a quelqu'un qui déjà travailler ça ???

n°1006202
Sorbus_
Posté le 29-01-2008 à 19:34:40  profilanswer
 

@Ghost_mh
 
Voici juste quelques pistes
 
@tous : xsane2tess pour disposer de tesseract dans XSane.

n°1006957
Ghost_mh
To Be Or Not To Be : TO BE
Posté le 31-01-2008 à 21:17:31  profilanswer
 

merci Sorbus_, je vais les voir très prochainement

n°1103558
Mjules
Modérateur
Parle dans le vide
Posté le 10-01-2009 à 11:47:47  profilanswer
 

Bon, tesseract, c'est pas mal du tout. Par contre, ça manque d'interface graphique :/

 

xsane + sane2tesseract + tesseract, ça fonctionne mais ça reste un peu gruik.


Message édité par Mjules le 10-01-2009 à 11:48:18

---------------
Celui qui pose une question est idiot 5 minutes. Celui qui n'en pose pas le reste toute sa vie. |  Membre du grand complot pharmaceutico-médico-scientifico-judéo-maçonnique.
n°1103864
mirtouf
Light is right !
Posté le 12-01-2009 à 15:03:19  profilanswer
 

c'est mieux qu'il y a 4 ans je te le dis...


---------------
-~- Libérez Datoune ! -~- Camarade, toi aussi rejoins le FLD pour que la flamme de la Révolution ne s'éteigne pas ! -~- A VENDRE
n°1392193
mirtouf
Light is right !
Posté le 12-07-2016 à 13:49:24  profilanswer
 

Y'a une dépêche sur un logiciel à 150 boules sur DLFP:
http://linuxfr.org/news/gnu-linux-a-son-ocr-de-qualite
 
La dépêche fait un peu publi-reportage mais je note on ne sait jamais.


---------------
-~- Libérez Datoune ! -~- Camarade, toi aussi rejoins le FLD pour que la flamme de la Révolution ne s'éteigne pas ! -~- A VENDRE
n°1396044
mirtouf
Light is right !
Posté le 13-10-2016 à 09:14:00  profilanswer
 
mood
Publicité
Posté le   profilanswer
 


Aller à :
Ajouter une réponse
  FORUM HardWare.fr
  Linux et OS Alternatifs
  Logiciels

  L'OCR sous GNU/Linux parlons-en !

 

Sujets relatifs
Install Linux sur disque SATANforce4 et linux
Quelque logiciel pour linuxEquivalent Ghost, pour Linux
linux debian ou gentooServer Cs1.6 sous linux pb connexin lan
pb linux mandrake 10.1[linux] Mise à jour de samba
webcam toucam II philips (avec Linux Mandrake 10.1)synchronisation de serveur linux redhat 7.2
Plus de sujets relatifs à : L'OCR sous GNU/Linux parlons-en !


Copyright © 1997-2022 Hardware.fr SARL (Signaler un contenu illicite / Données personnelles) / Groupe LDLC / Shop HFR