Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
1214 connectés 

  FORUM HardWare.fr
  Programmation
  Java

  extraction de données PDF

 


 Mot :   Pseudo :  
 
Bas de page
Auteur Sujet :

extraction de données PDF

n°2278604
solerian
Posté le 30-03-2016 à 15:32:37  profilanswer
 

Bonjour à tous,
 
Je débute en java , je souhaite extraire des informations qui se trouve dans un fichier PDF vers un fichier txt.
Est-ce réalisable avec java ou faut-il utiliser un autre langage de programmation pour y arriver ?
Je n'ai aucune piste ni la moindre idée du comment faire, pourriez-vous m'aider .
 
 
Je vous remercie d'avance pour votre aide.
Cordialement

mood
Publicité
Posté le 30-03-2016 à 15:32:37  profilanswer
 

n°2278619
Devil'sTig​er
Posté le 30-03-2016 à 18:38:55  profilanswer
 

C'est extremement difficile...
 
L'étape 1 serait de le convertir en html pour espérer avoir quelque chose de plus facile a lire/traiter. Par exemple:
https://sourceforge.net/projects/pdftohtml/
 
Ensuite, suivant le PDF, il y aura énormément de reprocess a faire pour reformatter non plus par rapport au visuel (le format PDF ne s'intéresse qu'a la présentation du texte), mais par rapport a la sémantique du document (ce qu'il raconte en gros).
 
Cette phrase peut paraitre ambigue alors voila quelques exemples:
- un PDF avec plusieurs colonnes de texte, un système va trouver deux blocs de texte, mais ne sera pas capable de dire lequel précede lequel (si tant est qu'ils se suivent) => car c'est quelque chose que toi, tu fais visuellement, ca n'est pas enregistré dans le document...
- les textes sous forme d'images seront encore plus dur a process puisqu'il faut rajouter de l'OCR par dessus
 
Des exemples comme ca, le PDF peut en embarquer des miliers, ceux ci dessus sont des cas en fin de compte simple. Car imaginons un texte avec une image qui est au centre du texte (et le texte épouse cette image), il y aura énormément de zones et il sera tres dur de savoir laquelle arrive apres laquelle...

n°2278629
solerian
Posté le 31-03-2016 à 08:38:51  profilanswer
 

Bonjour,
 
Si y a uniquement du texte c'est possible ?
Les informations que je souhaite récupérer se trouve en haut à droite, en haut à gauche l'une en dessous de l'autre comme je dois extraire des informations qui se trouve dans une facture, est-ce que ça va poser un problème ?

n°2278631
solerian
Posté le 31-03-2016 à 09:14:37  profilanswer
 

J'utilise NetBeans mais je ne comprends pas trop ce qu'il faut que je mette ici :

Code :
  1. package conversion_pdf;
  2. public class Conversion_PDF {
  3. public static void main(String[] args) {


 
Mon code doit commencer à quelle endroit ?

n°2278657
solerian
Posté le 31-03-2016 à 13:56:53  profilanswer
 

Voici le message d'erreur lorsque j'utilise itextpdf
impossible de trouver ou charger la classe principale

n°2278746
Devil'sTig​er
Posté le 01-04-2016 à 14:05:14  profilanswer
 

Oula si tu en est a ce stade, commence par faire les bases de Java au lieu de directement tenter un lecteur PDF; c'est d'un niveau très largement au dessus de ce que tu mets la...


Aller à :
Ajouter une réponse
  FORUM HardWare.fr
  Programmation
  Java

  extraction de données PDF

 

Sujets relatifs
Recherche de donnéesChanger les données affichées sur une page Web
[PHP/Bootstrap] Problème de pièce jointe et d'envoi de donnéesInsérer des données CSV dans un graph sur une page CSS/HTML
Générer un PDF à partir d'un tableau HTMLConvertir fichier PDF en fichier txt
Importer des données de plusieurs fichiers, sous conditionLien hypertexte dans un tableau à partir d'une base de données?
Navigation intuitive dans une base de données[C#] Impression PDF
Plus de sujets relatifs à : extraction de données PDF


Copyright © 1997-2022 Hardware.fr SARL (Signaler un contenu illicite / Données personnelles) / Groupe LDLC / Shop HFR