Java

extraction de données PDF

Recherche :

Mot : Pseudo : Filtrer
Bas de page
Auteur	Sujet : extraction de données PDF

solerian

Bonjour à tous,

Je débute en java , je souhaite extraire des informations qui se trouve dans un fichier PDF vers un fichier txt.
Est-ce réalisable avec java ou faut-il utiliser un autre langage de programmation pour y arriver ?
Je n'ai aucune piste ni la moindre idée du comment faire, pourriez-vous m'aider .

Je vous remercie d'avance pour votre aide.
Cordialement

Publicité

Devil'sTiger

C'est extremement difficile...

L'étape 1 serait de le convertir en html pour espérer avoir quelque chose de plus facile a lire/traiter. Par exemple:
https://sourceforge.net/projects/pdftohtml/

Ensuite, suivant le PDF, il y aura énormément de reprocess a faire pour reformatter non plus par rapport au visuel (le format PDF ne s'intéresse qu'a la présentation du texte), mais par rapport a la sémantique du document (ce qu'il raconte en gros).

Cette phrase peut paraitre ambigue alors voila quelques exemples:
- un PDF avec plusieurs colonnes de texte, un système va trouver deux blocs de texte, mais ne sera pas capable de dire lequel précede lequel (si tant est qu'ils se suivent) => car c'est quelque chose que toi, tu fais visuellement, ca n'est pas enregistré dans le document...
- les textes sous forme d'images seront encore plus dur a process puisqu'il faut rajouter de l'OCR par dessus

Des exemples comme ca, le PDF peut en embarquer des miliers, ceux ci dessus sont des cas en fin de compte simple. Car imaginons un texte avec une image qui est au centre du texte (et le texte épouse cette image), il y aura énormément de zones et il sera tres dur de savoir laquelle arrive apres laquelle...

solerian

Bonjour,

Si y a uniquement du texte c'est possible ?
Les informations que je souhaite récupérer se trouve en haut à droite, en haut à gauche l'une en dessous de l'autre comme je dois extraire des informations qui se trouve dans une facture, est-ce que ça va poser un problème ?

solerian

J'utilise NetBeans mais je ne comprends pas trop ce qu'il faut que je mette ici :

Code :

package conversion_pdf;
public class Conversion_PDF {
public static void main(String[] args) {

Mon code doit commencer à quelle endroit ?

solerian

Voici le message d'erreur lorsque j'utilise itextpdf
impossible de trouver ou charger la classe principale

Devil'sTiger

Oula si tu en est a ce stade, commence par faire les bases de Java au lieu de directement tenter un lecteur PDF; c'est d'un niveau très largement au dessus de ce que tu mets la...

FORUM HardWare.fr

Programmation

Java

extraction de données PDF

Sujets relatifs
Recherche de données	Changer les données affichées sur une page Web
[PHP/Bootstrap] Problème de pièce jointe et d'envoi de données	Insérer des données CSV dans un graph sur une page CSS/HTML
Générer un PDF à partir d'un tableau HTML	Convertir fichier PDF en fichier txt
Importer des données de plusieurs fichiers, sous condition	Lien hypertexte dans un tableau à partir d'une base de données?
Navigation intuitive dans une base de données	[C#] Impression PDF
Plus de sujets relatifs à : extraction de données PDF

Page générée en 0.038 secondes