Pour ma part j'ai renoncé à l'OCR après essai de 3 des 4 ténors. En attendant que l'OCR soit réellement assez au point pour pouvoir commencer à être essayé en pratique, il est aussi bien de stocker les documents en BMP (zippés et/ou convertis en JPG ou TIF ou autre), ce qui a l'avantage d'être plus conforme à l'original.
J'ai acheté et utilisé Pagis Pro 3 (ma dernière upgrade = Millenium), qui contenait TexBridge Pro (Millenium à la fin) ; j'ai essayé les versions d'évaluations de FineReader 6 et ReadIris Pro 7 ; je n'ai pu essayer OmniPage Pro qu'occasionnellement, p. ex. sur un stand IBM (de lecture pour aveugles). Je les classerais (et noterais) comme suit :
En effet tous ont tendance à dépenser davantage d'énergie à copier ce que viennent de sortir leurs concurents, qu'à essayer de réellement travailler à améliorer leur propre produit ; davantage à allonger leur liste de fonctionalités, qu'à renforcer les fonctionalités existantes en les rendant plus fiables, plus rapides, plus commodes, plus simples et claires et par conséquent plus sûres à l'usage.
Par exemple, tous détectent les différentes zones de la page (texte, dessin, photo, etc...), mais tous le font de façon trop simpliste pour qu'on puisse compter dessus, il faut tout vérifier et sur chaque page de journal il faut redéfinir au moins une zone ; tous réorientent la page, mais mal ; tous ont amélioré leur taux de reconnaissance, mais un taux de 99% voudrait dire que 1 mot sur 100 nécessiterait une correction (et le plus souvent une correction importante, bien pire qu'une faute d'orthographe), ce qui est énorme, et dépasse tout ce qu'on aurait avec une dictée humaine, même de très mauvaise qualité.
Finalement l'OCR est certes sur la bonne voie, mais encore loin d'être réellement utilisable avec une productivité décente : sauvons nos documents en BMP, nous les passeront à l'OCR quand celui-ci sera à la hauteur.
Paris, Tue 16 Sep 2003 12:02:40 +0200