Les fautes de l'OCR empêchent la LECTURE, mais pas l'INDEXATION
La version scannée JPG, même si pas très propre, est en général lisible. Par contre le passage par l'OCR, sans doute pour un certain temps encore, détériore trop le texte pour la lecture.
Autrement dit, les mots altérés par OCR sont, pour encore un certain temps, trop nombreux pour permettre une lecture satisfaisante. Mais ils ne gênent pas trop l'indexation : si un mot est erroné, il sera rare, et viendra loin dans les ranks, donc ne perturbera pas vraiment les résultats de cette indexation.
Ce n'est qu'une supposition de ma part, mais j'aurais tendance à y lui donner plus de poids qu'à celle de la protection des droits ("Ben parce que sinon tu les retrouverais un peu partout sur la toile de façon totalement gratuite & incontrôlée" ). À noter que le fait que les PDF fournis soient des images (JPG ou autre) s'explique dans les 2 cas et ne fait donc pas sensiblement pencher pour une hypothèse ou une autre.
Versailles, Mon 26 Apr 2010 21:15:30 +0200
---------------
Se méfier des citations, et même des posts originaux : contexte trompeur, bannissement des victimes de lynchages ainsi empêchées de répondre, destructions de posts sélectives et massives mais non-mentionnées, etc.