Bonjour,
Je cherche à automatiser l'océrisation de mes PDF scannés. Pour les non scannés je peux récupérer le text avec pdftotext.
J'ai tester quelques logiciel dont PDFXchange ou tesseract mais pour le 1er je ne trouve pas de ligne de commande pour océriser mon pdf et le second demande des images donc je devrais en plus convertir mon PDF en plusieurs image et lancer la commande :
Code :
- "C:\Program Files (x86)\Tesseract-OCR\tesseract.exe" "01.jpg" output.txt
|
Il me faudrait un outil qui océrise le PDF (= génère le texte directement dans le fichier) pour ensuite récupérer le texte avec pdftotext
Un outil compatible à Windows voire Linux car je ne sais pas encore si j'aurai besoin de l'installer sur mon hébergement OVH. Gratuit/libre ou pas trop cher.
Merci par avance.