Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
2954 connectés 

  FORUM HardWare.fr
  Hardware - Périphériques
  Scanner

  OCR : quel logiciel et quel paramétrage ?

 


 Mot :   Pseudo :  
 
Bas de page
Auteur Sujet :

OCR : quel logiciel et quel paramétrage ?

n°182469
_MoebiuS_
Paranoïd Androïd
Posté le 04-06-2005 à 12:31:51  profilanswer
 

:hello:  
 
J'ai pas mal de docs à scanner et à mettre au format PDF. (j'ai fait une compil de ce que j'avais déjà dit dans le topic scanner à 100€)
La finalité est soit un fichier PDF image (ce qui n'est ni plus ni moins un paquetage de plusieurs JPG), soit un fichier PDF image avec recherche (un texte invisible est caché et permet d'utiliser un moteur de recherche), soit un fichier PDF totalement texte.
 
Bizarrement, je n'ai trouvé nulle part de test de logiciel OCR. Les autres topics d'HFR sont un peu anciens.
 
Je fais essentiellement des scans de documents pour archivage et envoi par ftp de documents juridiques.  
 
J'ai essayé de faire des OCR avec Adobe Acrobat 7 et mes scanners (un vieil Agfa 1212 et un récent Epson 2480) et je ne suis pas vraiment satisfait des résultats. Je recherche le meilleur compromis "respect du document original/taille du fichier".
 
J'ai fait des essais à différentes résolutions et c'est toujours dégueulasse (même en augmentant beaucoup la résolution, j'ai parfois des effets bizarres), c'est-à-dire que je me retrouve souvent avec la moitiée d'une phrase qui reste en bitmap, l'aute moitiée en texte mais avec différentes fontes, etc...  
Je me suis dit que le logiciel Acrobat (même la version full) devait être trop juste...
 
J'ai essayé 5 logiciels : Adobe Acrobat 7, Adobe Paper Capture 3, Scansoft Omnipage 14 pro, Abby Finereader 7 Office et ReadIris 10.  
J'ai fait les essais avec mes docs et chacun des exemples de ces logiciels, en les croisant (Iris a des exemples bien vicieux  :bounce: ).
 

  • Adobe Acrobat 7...  :cry:  

C'est le premier essayé, pas terrible. Acrobat 7 a le défaut que l'on connait (lissage étrange des caractères, etc...). Par contre, l'exportation finale des fichiers se fait en Pdf 1.6, assez compact.  
 

  • Adobe Paper Capture...  :whistle:  

est technologiquement complètement dépassé (le noyau date de 2000) et ça se voit dans l'interface. L'export se fait à d'anciens formats. Berk.
 

  • Omnipage 14 Pro...  :kaola:  

demande des dizaines de confirmations par page, beaucoup de phrases gardent des mots en mode graphique (comme Acrobat), il y a des paragraphes qui deviennent non homogènes (en fontes, taille de fontes, alignement). Le plus drôle, ces mauvais résultats sont valables sur leurs propres exemples.  
Pour le prix, je le trouve assez catastrophique, et l'interface est très lourde  :??:  
 

  • FineReader  :sol:  

... je ne le connais que depuis peu et j'ai été très agréablement surpris. Il n'est pas cher (100€ en version pro) et fonctionne super bien. Les paragraphes sont homogènes, l'OCR est rapide, il n'y a pas de confirmations abusives, et le comble : les exemples d'Omnipages sont mieux reconnus avec FineReader !!!! Et les exportations (en PDF 1.2) sont deux fois plus petites que celle d'Omnipage (en pdf 1.4) alors que les résolutions sont les mêmes.
Est-ce que ce sont vraiment les mêmes résolutions ? Il doit y avoir un truc.
 

  • ReadIris Pro 10  :p  

Celui-là a été descendu par le mini comparatif de 01net ( http://www.01net.com/article/277943.html?d=origine ) alors qu'il donne d'assez bons résultats (bien meilleurs qu'Omnipage en tous cas). Il est peu cher et son interface est assez light et bien foutue. En reconnaissance pure, il est un petit peu moins bon que FineReader (il a des difficultés avec des documents en plusieurs langues).
 
 
En résumé, dans mes comparatifs, FineReader s'en était bien sorti (pour un soft à 120€ par rapport à un Omnipage à 700€...) même avec les mises en page tordue. En particulier, j'ai essayé les exemples livré avec Omnipage sur FineReader et c'est ce dernier qui s'en sortait le mieux (l'exemple le plus flagrant est opsample5_ENG_FRE_GER.tif qui comporte des images en insert, plusieurs colonnes, des titres en rouges et paragraphes en noirs, 3 langues dans le même document allemand-français-anglais, etc...).  
 
Cependant, je n'ai pas encore de réponse à toutes mes questions malgré de nombreux tests.
 
Quelle est la meilleure résolution et le choix NB / Gris 8 bit / Gris 16 bit / Couleur 24 bit pour :
 

  • Un texte qui doît être reconnu et dont on ne garde pas la mise en page (un fichier dont le contenu sera modifié sous Word) ?


  • Un fichier d'archivage conforme à l'original (qui doit avoir une valeur juridique et respecter la mise en page et l'aspect du document) quitte à détruire l'original (ou original qui pourrait être détruit ou volé)...


  • Un fichier duplicata qui sera imprimé sur un site distant (contrainte de taille de fichier car envoi par FTP) donc  

   - soit image pure pour être le plus fidèle possible
    - soit texte pour le gain de taille sur le fichier
    - soit un compromis (cas FineReader) où une image basse résolution est gardée pour l'aspect du document et les graphes, et un texte reconnu est placé en surimpression (par contre, je ne suis pas certain de la validité juridique du document  
 
Merci de donner vos avis, pour ceux qui ont déjà fait de l'OCR :hello:  
 
Quel beau pavé   [:_moebius_]  [:_moebius_]  [:_moebius_]


---------------
The Magic Words are Squeamish Ossifrage.
mood
Publicité
Posté le 04-06-2005 à 12:31:51  profilanswer
 

n°185097
tbarracuda
Posté le 14-06-2005 à 23:28:13  profilanswer
 

J'utilise de temps en temps FineReader, et je le trouve aussi vraiment bien.

n°186352
dbox77
Posté le 20-06-2005 à 18:54:26  profilanswer
 

Salut Moebius,
 
Je suis aussi dans la même config. Je suis novice en OCR mais j'ai pas mal de doc juridique à scanner pour archive.  
 
Concernant les softs, je suis d'accord: Acrobat 7 est déplorable, je n'aime pas trop Omnipage, mon préféré reste ReadIris (moi j'ai la version 8 mais ce n'est pas très différent).
 
Ma solution dépend de la qualité du doc original: il n'y a pas le même traitement si c'est un vieux fax  ou un original tout neuf largement aéré. Je trouve le meilleur rapport qualité poids avec "gris 8 bit" et 150ppp: OK pour le print, bon pour l'écran, acceptable pour l'OCR. Toutefois, il faut parfois repasser par un logiciel de traitement d'image (genre photoshop) pour améliorer le contraste et augmenter un peu la luminosité (histoire de ne pas avoir en transparence le contenu du verso de la page).
 
Pour ce qui est de la recherche, deux solutions existent: tu peux créer un pdf "image" puis utiliser les propriétés du document et faire un résumé du texte dans la case "sujet" ou "mot clefs": cela te permet de faire des copies de l'original (à savoir si cela à une valeur légale te permettant de détruire l'original papier) et de garder des possiblités d'accéder à l'essentiel du contenu.
 
Maintenant si tu as besoin d'une possibilité de recherche intégrale dans le texte du document, il te faut les deux: ie créér un fichier acrobat contenant d'abord le texte récupéré d'après ReadIris, puis en annexe le fichier image aux valeurs ci-dessus. N'oublie pas que ReadIris te permet de sauvegarder les pages scannées au format TIF, que tu peux récupérer sous photoshop pour les transformer en GIF sans fond, puis que tu importera dans Acrobat (je veux dire pas besoin de scanner deux fois: une pour l'OCR et une pour l'image). Maintenant c'est quand même un peu long (je descend rarement à moins de 10 minutes la page toutes opérations comprises).
 
Autre info, préfère le GIF sans fond au JPEG: meilleur au niveau de la définition des caractères.
N'oublie pas la merveilleuse fonction bookmark qui permet d'organiser et de mettre plein de choses (genre titre de paragraphe).
 
Voilà c'est tout pour l'instant,
Un beau pavé que je viens de pondre là  :hello:
Si tu as besoin de nouvelles explications, pas de problème
Cordialement

n°186356
_MoebiuS_
Paranoïd Androïd
Posté le 20-06-2005 à 19:13:43  profilanswer
 

:hello:
 
:jap: Ca va être le topic des beaux pavés :D
Merci pour tes expériences.
 
Le gif avec le fond alpha, tu le choisis dès le début au moment du scan ?
Est-ce que tu fais toutes les pages à la suite avec l'interface de ton scanner qui te sauvegarde chaque page dans un fichier
 
* ou *
 
Est-ce que tu es dans ton logiciel de destination (ReadIris par exemple) et tu passes par le Twain ?
 
 
 
J'ai remarqué qu'Acrobat a des formats moins destructifs en interne pour stocker les images (JPEG 2000, CCITT groupe 4), je ne sais pas s'il faut passer par là ou non.


---------------
The Magic Words are Squeamish Ossifrage.
n°186520
dbox77
Posté le 21-06-2005 à 17:09:28  profilanswer
 

Salut,
 
Le choix en GIF sans fond c'est à la fin , au moment de l'export final. Actuellement j'ai tendance à faire le scan depuis ReadIris via TWAIN gris 300ppp et scanner toutes les pages les unes après les autres; puis sauvegarde du fichier TIF (contenant toutes les pages), éventuellement retouche luminosité contraste avant réimport dans Readiris. Là, je procède à la  reconnaissance du document, puis export vers word xp, légère mise en page (on affecte les titre 1, titre 2 et titre 3 standard au doc) puis impression directe vers Acrobat 7. Ici je récupère le fichier texte avec les bookmarks intégraux (titre 1, titre 2, titre 3...) en arborescence. Je reprend le fichier TIF contenant les images sous photoshop, dégradation en gif 150ppp, et sauvegarde. Dans Acrobat , insertion page après la page courante, fichier gif. Il ne reste plus qu'à effacer les fichiers temporaires, terminé.
 
J'ai remarqué aussi les autres formats, mais je ne les ai pas encore essayés (le rapport poids qualité du GIF est OK pour moi) mais avis à ceux qui ont essayé de nous dire comment ça fonctionne.
 
Cordialement,
 :hello:  :hello:

n°186604
dbox77
Posté le 22-06-2005 à 09:22:11  profilanswer
 

:fou: Eh dis donc, Faudrait peut être arrêter d'élucubrer là, peuchèreeeeuh !  :fou:  
 
 :( Sorry.
 
En fait on ne peut pas sauvegarder sous un fichier unique plusieurs pages et les faire reconnaitre par photoshop. Il faut donc sauvegarder chaque page du document sous un fichier individuel. Par contre rien n'empêche d'utiliser ensuite la fonction batch de photoshop pour appliquer un même traitement à tous les fichiers.

n°186605
dbox77
Posté le 22-06-2005 à 09:23:21  profilanswer
 

:fou: Eh dis donc, Faudrait peut être arrêter d'élucubrer là, peuchèreeeeuh !  :fou:  
 
 :( Sorry.
 
En fait on ne peut pas sauvegarder sous un fichier unique plusieurs pages et les faire reconnaitre par photoshop. Il faut donc sauvegarder chaque page du document sous un fichier individuel. Par contre rien n'empêche d'utiliser ensuite la fonction batch de photoshop pour appliquer un même traitement à tous les fichiers.
 
Pour CCIT, Acrobat l'utilise automatiquement dans l'importation des fichiers.

n°323338
foufou55
Rien
Posté le 19-09-2006 à 00:25:39  profilanswer
 

alors d'autre avis ?

n°324976
_MoebiuS_
Paranoïd Androïd
Posté le 24-09-2006 à 16:02:09  profilanswer
 

J'aimerais bien  [:airforceone]   [:_moebius_]

n°344562
Thzith
Life is a lesson
Posté le 24-11-2006 à 13:47:25  profilanswer
 

Bonjour à tous,

 

J'aurais besoin de créer un batch qui se lancerai la nuit sur un serveur pour une application en java pour transformer un PDF "image" en un PDF "texte". Etant donnée que je ne dispose pas de version "full" des logiciels ci dessus, est ce que quelqu'un peu me dire si c'est possible avec l'un d'entre eux. Je connais assez bien FineReader mais je n'ai testé qu'une version "light" et non pro.

 

Le principe est:
Je doit charger dans des blobs oracle des fichiers pdf à partir de documents scannés par des utilisateurs afin d'y faire des recherche textuelles. Mais chaque utilisateur n'utilise pas forcement le même logiciel avec leur scanner  :non: , donc n'obtient pas forcement un pdf avec la possibilité de faire une recherche.
Je dois donc retransformer ces fichiers pdf (d'après moi), en repassant un OCR dessu et en regénérant un autre fichier pdf conforme au besoin. Mais quel logiciels utiliser???

 

Merci

 

Je suis prenneur que cela soit un soft gratuit ou non.

 



---------------
Thzith
mood
Publicité
Posté le 24-11-2006 à 13:47:25  profilanswer
 

n°491130
BMenez
Posté le 06-06-2008 à 22:25:23  profilanswer
 

Je suis actuellement en recherche d'un logiciel d'OCR performant et non limité en nombre de pages (cas d'Abby FineReader).
 
Omnipage, Autobahn sont pas mal mais loin, très loin d'être parfait en terme de reconnaissance (malgré un TIFF 600ppp, 256 niveaux de gris en entrée).
 
Est-ce que vous avez des retours sur des logiciels efficaces ?  

n°550053
mrmuscade
Posté le 10-04-2009 à 18:06:07  profilanswer
 

_MoebiuS_ a écrit :

:hello:  
J'ai pas mal de docs à scanner et à mettre au format PDF. (j'ai fait une compil de ce que j'avais déjà dit dans le topic scanner à 100€)
La finalité est soit un fichier PDF image (ce qui n'est ni plus ni moins un paquetage de plusieurs JPG), soit un fichier PDF image avec recherche (un texte invisible est caché et permet d'utiliser un moteur de recherche), soit un fichier PDF totalement texte.
[...]
Quel beau pavé   [:_moebius_]  [:_moebius_]  [:_moebius_]


 
Salut,
Tout d'abord merci beaucoup pour ton test car tu as fait un sacré boulot. Moi aussi je cherchais des tests comparatif et je n'ai trouvé que ton post dans différent forum ;-)
Je vais donc testé Finereader puisque c'est celui que tu as trouvé le plus performant. Mais dis moi, depuis plus de 4 ans, utilise tu un meilleur logiciel OCR depuis ? Si oui, pourrais tu nous en faire part ?
 
Merci pour ton test, cordialement

n°560819
wyzer
Live from New-York, it's...
Posté le 12-07-2009 à 03:04:06  profilanswer
 

Up
 
car je suis aussi à la recherche du meilleur logiciel OCR


---------------
MG4 (standard, phase 1) / Volkswagen e-Up (phase 2)
n°619482
fabyyyy
Posté le 25-09-2010 à 10:57:25  profilanswer
 


Up, moi aussi
 
finereader est toujours au top en 2010 ?

n°619907
olivieroad​rius
ben, heu... a oui!!
Posté le 29-09-2010 à 10:08:12  profilanswer
 

up moi aussi!

n°658907
Jesus51
Posté le 16-08-2011 à 15:49:16  profilanswer
 

wyzer a écrit :

Up
 
car je suis aussi à la recherche du meilleur logiciel OCR


 
Up... moi aussi! les logiciels gratuits que j'ai essayés sont minables :)

n°667403
zeendoc
Posté le 17-10-2011 à 13:35:41  profilanswer
 

Bonjour A tous,
Je travaille chez http://zeendoc.com qui est un logiciel de Gestion electronique de documents ( GED) qui intègré un OCR et un RAD qui semble correspondre à vos besoins. Les premiers forfaits sont à 5 euros.
 
Dites que vous venez de Hardware et je vous lancerai une démo de 3 mois gratuite, si ca vous tente :)
A bientôt


---------------
Zeendoc la GED, La Gestion Documentaire en Ligne
n°667408
Jesus51
Posté le 17-10-2011 à 13:55:12  profilanswer
 

perso j'ai trouvé le logiciel AABBYY qui est parfait pour mes besoins

n°673891
LibreArbit​re
RIP mon Orion
Posté le 10-12-2011 à 11:35:38  profilanswer
 

Pareil, j'ai du acquérir une licence ABBYY pour un usager au travail et le niveau de reconnaissance et la rapidité de traitement est impressionnante...


---------------
Hebergement d'images | Le topic de la VR standalone
n°970867
_MoebiuS_
Paranoïd Androïd
Posté le 26-02-2019 à 15:48:39  profilanswer
 

Hello, je me fais un auto up archéologique :D
 
Je dois me relancer dans une session dématérialisation (factures, ordonnances, et autres paperasses encombrantes).
Est-ce que Abbyy est toujours d'actualité ? Dans mon cas l'OCR est plus pour l'indexation du texte que pour l'affichage en overlay.


---------------
The Magic Words are Squeamish Ossifrage.
n°970922
wyzer
Live from New-York, it's...
Posté le 27-02-2019 à 09:20:48  profilanswer
 

_MoebiuS_ a écrit :

Hello, je me fais un auto up archéologique :D
 
Je dois me relancer dans une session dématérialisation (factures, ordonnances, et autres paperasses encombrantes).
Est-ce que Abbyy est toujours d'actualité ? Dans mon cas l'OCR est plus pour l'indexation du texte que pour l'affichage en overlay.


Salut,
 
Il y a l'application mobile "Adobe Scan" qui fait de l'OCR.
 
https://acrobat.adobe.com/fr/fr/mobile/scanner-app.html

mood
Publicité
Posté le   profilanswer
 


Aller à :
Ajouter une réponse
  FORUM HardWare.fr
  Hardware - Périphériques
  Scanner

  OCR : quel logiciel et quel paramétrage ?

 

Sujets relatifs
Logiciel pour attribuer des touches de clavierRecherche un logiciel pour calculer le temps de reponse ?
logiciel pour pixel mortLogiciel de convertion d'image > texte
Logiciel pour imprimer page web pour Lexmarklogiciel pour USB
Scanner pour OCR entre 100 et 150€...logiciel pour scanner?
paramétrage BELINEA 101735 !logiciel calibrage couleur
Plus de sujets relatifs à : OCR : quel logiciel et quel paramétrage ?


Copyright © 1997-2022 Hardware.fr SARL (Signaler un contenu illicite / Données personnelles) / Groupe LDLC / Shop HFR