C'est extremement difficile...
L'étape 1 serait de le convertir en html pour espérer avoir quelque chose de plus facile a lire/traiter. Par exemple:
https://sourceforge.net/projects/pdftohtml/
Ensuite, suivant le PDF, il y aura énormément de reprocess a faire pour reformatter non plus par rapport au visuel (le format PDF ne s'intéresse qu'a la présentation du texte), mais par rapport a la sémantique du document (ce qu'il raconte en gros).
Cette phrase peut paraitre ambigue alors voila quelques exemples:
- un PDF avec plusieurs colonnes de texte, un système va trouver deux blocs de texte, mais ne sera pas capable de dire lequel précede lequel (si tant est qu'ils se suivent) => car c'est quelque chose que toi, tu fais visuellement, ca n'est pas enregistré dans le document...
- les textes sous forme d'images seront encore plus dur a process puisqu'il faut rajouter de l'OCR par dessus
Des exemples comme ca, le PDF peut en embarquer des miliers, ceux ci dessus sont des cas en fin de compte simple. Car imaginons un texte avec une image qui est au centre du texte (et le texte épouse cette image), il y aura énormément de zones et il sera tres dur de savoir laquelle arrive apres laquelle...