Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
1521 connectés 

  FORUM HardWare.fr
  Programmation
  PHP

  [Php] Indexation de document Pdf, Doc ou Xls sous PHP / MySQL

 


 Mot :   Pseudo :  
 
Bas de page
Auteur Sujet :

[Php] Indexation de document Pdf, Doc ou Xls sous PHP / MySQL

n°1515499
defjay
Posté le 16-02-2007 à 14:06:04  profilanswer
 

Bonjour,
 
Dans un besoin d'indexation de documents de type pdf ou autres dans mon Intranet de gestion de contenu (type CMS)
 
J'ai besoin de fonction ou d'un script permettant soit le parcourir le contenu d'un Pdf soir d'en prendre tous les mots afin de les mettre dans un champ de ma BD sous Mysql.
 
Il existe fpdf comme classe, mais celle-ci ne permet que de générer du pdf et pas d'en extraire du texte.
 
Sinon il y a l'utilitaire PDF2Txt mais celui-ci est payant.
 
 
Avez-vous une idée sur comment faire, j'ai essayé fopen de Php mais bien sur il m'extrait que des signes imcompréhensibles d'un pdf.
 
 
Merci pour votre aide.


Message édité par defjay le 16-02-2007 à 16:51:19
mood
Publicité
Posté le 16-02-2007 à 14:06:04  profilanswer
 

n°1515505
flo850
moi je
Posté le 16-02-2007 à 14:12:58  profilanswer
 

pdftotext est gratuit si c'est toi qui le recompile
 
au passage , pour les ppt, tu peux utiliser catppt , pour les xls : xls2csv  , pour les doc catdoc et pour les rtf unrtf

n°1515556
defjay
Posté le 16-02-2007 à 14:40:34  profilanswer
 

PdfToText ne s'utilise pas en PHP je crois ?

n°1515558
flo850
moi je
Posté le 16-02-2007 à 14:42:49  profilanswer
 

non, mais tu peux le lancer en ligne de commande avec la fonction passthru
 
perso , j'ai pas trouver mieux pour le CMS sur lequel je bosse ( mais si tu me trouve un classe php qui le fait, je prends )

n°1515576
defjay
Posté le 16-02-2007 à 14:54:54  profilanswer
 

En farfouillant sur le net , j'ai trouvé un gars qui a fait une fonction permettant d'extraire le texte d'un PDF
 
liens :
 
http://www.php.net/manual/en/ref.pdf.php regarde dans les commentaires vers la fin il ya plusieurs bout de code.
 
 
Par contre, en gros, je peut utiliser PDF2Text avec passthru ou exec.
 
QUand tu me dit qu'il faut que ce soit moi qui recompile ??? Recompile en quoi (c'est quel langage à la base)
 
Merci beaucoup en tout cas

n°1515587
flo850
moi je
Posté le 16-02-2007 à 15:05:00  profilanswer
 

je crois que c'est du C a la base
 
et si je me souviens bien , le plus compliqué ( sous linux ) , c'est de faire make,puis make install , donc ca va

n°1515597
defjay
Posté le 16-02-2007 à 15:12:40  profilanswer
 

Tu a regardé la fonction, je suis en train de la tester.
 
Fair une recherche la dessus sur la page que je t'a envoyé :
thodge at ipswich dot qld dot gov dot au
 
La fonction est juste en dessous.
 
Je regarde pour la compilation du prog en C.
Mais sinon j'espère que la fonction va fonctionner car apparement PDF2Txt est lourd en temps de traietement.

n°1515637
defjay
Posté le 16-02-2007 à 16:07:40  profilanswer
 

Bon je viens d'en essayer deux, ça ne fonctionne pas, une me ressort des erreurs au niveau d'une fonction, l'autre mez ressort rien du tout.
 
Apparement, c'est compatible qu'avec des pdf 1.2 1.3 ou 1.4 qui sont de la version 3 d'acrobat reader, donc......
 
A confirmer.
 

n°1515666
defjay
Posté le 16-02-2007 à 16:30:41  profilanswer
 

Je viens d'essayer PDFtoText...
 
Impressionnant de rapidité, de simplicité et d'efficacité, maintenant il me reste plus qu'à appeler l'executable depuis le code PHP, et de parcourir le txt créé afin d'enregistrer tous le texte dans un champs de ma BD.
 
L'indexation avance en Open Source ! grace à des outils come celui-la
 
 
 

n°1515740
flo850
moi je
Posté le 16-02-2007 à 18:52:40  profilanswer
 

oui , ca fonctionne pas mal  
 
comme je te l'ai dis , je m'en sers pour indexer les données du portail de la boite

mood
Publicité
Posté le 16-02-2007 à 18:52:40  profilanswer
 

n°1515963
defjay
Posté le 17-02-2007 à 13:35:25  profilanswer
 

Et ta mthode pour faire du fichier txt >> BD, une boucle avec fopen et parcour du fichier texte en ignorant les mot < 3 caractères peut etre ?

n°1515964
flo850
moi je
Posté le 17-02-2007 à 13:40:00  profilanswer
 

non, je mets tout bourrinement en bdd ( je me sers du contenu du fichier pour faire l'aperçu lors de la recherche )  
 

n°1516767
defjay
Posté le 20-02-2007 à 09:25:24  profilanswer
 

Je viends d'essayer PdfToText, il marche bien.
 
Par conte catdoc, c'est l'anarchie !!
J'ai réussi à dénicher une version qui a été modifié pour Windows (avec notamment gesrtion des noms de fichiers longs). Mais l'utilitaire me bouffe beaucoup de texte notamment en me grillant le début de chaque phrase.

n°1516775
flo850
moi je
Posté le 20-02-2007 à 09:43:21  profilanswer
 

la ,je vais pas pouvoir te repondre, mon serveur tourne sous linux ;)

n°1516780
defjay
Posté le 20-02-2007 à 09:49:03  profilanswer
 

Et sous Linux, tous ces binaries (catdoc...) marche impec ?
Parce que moi aussi c sous Linux, je voulais juste essayer sur un poste client sur windows avant de voir


Message édité par defjay le 20-02-2007 à 09:49:33
n°1516807
flo850
moi je
Posté le 20-02-2007 à 10:17:19  profilanswer
 

chez moi  y a aps eu de probleme
 
sous windows, le moyen leplus 'propre' de recuperer le contenu de fichier microsoft, c'est d'utilliser les objets com ( il existe une extension pour ca )

n°1516857
defjay
Posté le 20-02-2007 à 11:24:52  profilanswer
 

Je vais voir ça, sinon question subsidiaire, tu utilise quoi pour faire ta recherche full-text.
 
Moi je suis sur MySQL Full-text (depuis version 4) et c vraiment pas mal.
(j'ai laissé tombé Htdig, Zend Lucene, Sphider... trop complexe et ne permet pas de gérer les droits sur des documents)
 
+++

n°1516859
flo850
moi je
Posté le 20-02-2007 à 11:25:53  profilanswer
 

les requetes full text de mysql => ( MATCH AGAINST )

n°1516872
defjay
Posté le 20-02-2007 à 11:43:40  profilanswer
 

ouè c'est ça, en fait je voulais juste savoir quelle systeme tu utilisé c tout :)

n°1521139
defjay
Posté le 27-02-2007 à 17:15:05  profilanswer
 

EN parlant des requetes Fulltest, j'ai deux questions :
 
- Comment afficher la structure d'une table Mysql en affichant aussi les index utilisé ( describe est insuffisant)
 
- le fait de rajouter plus de colonnes dans Match(col1,col2,col3....) affaiblit-elle les différences de pertinence entre les différents résultats retournée ?
 
Merci
 
j'ai trouvé mes réponses
 
1) non pas possible
2) non


Message édité par defjay le 07-03-2007 à 10:00:19
n°1575036
paris31000
Posté le 14-06-2007 à 16:54:52  profilanswer
 

Bonjour,
J’ai une question je travail sur un moteur de recherche j’ai téléchargé les binaires externes catdoc et xpdf j’ai compilé avec un accumula taire j’ai donné les liens après j’ai créé un fichier.html qui contient un fichier .doc aces des liens quand j’index j’ai cette erreur Page contains less than 15 words
Si quelqu’un à déjà vue ca la recherche se fait sur sphider
Merci de répondre.
 

n°1575122
Dj YeLL
$question = $to_be || !$to_be;
Posté le 14-06-2007 à 18:37:10  profilanswer
 

Entrées, virgules, points toussa :o


---------------
Gamertag: CoteBlack YeLL
n°1576701
zantoine
Posté le 19-06-2007 à 11:49:03  profilanswer
 

paris31000 a écrit :

Bonjour,
J’ai une question je travail sur un moteur de recherche j’ai téléchargé les binaires externes catdoc et xpdf j’ai compilé avec un accumula taire j’ai donné les liens après j’ai créé un fichier.html qui contient un fichier .doc aces des liens quand j’index j’ai cette erreur Page contains less than 15 words
Si quelqu’un à déjà vue ca la recherche se fait sur sphider
Merci de répondre.


 
Bonjour,
 
En fait ton problème viens du fait que le compte invité internet n'a pas les droits de lecture sur le fichier cmd.exe qui se trouve dans windows/system32/
Après au niveau sécurité je ne sais pas ce que ça donne mais au moins ça te débloque

mood
Publicité
Posté le   profilanswer
 


Aller à :
Ajouter une réponse
  FORUM HardWare.fr
  Programmation
  PHP

  [Php] Indexation de document Pdf, Doc ou Xls sous PHP / MySQL

 

Sujets relatifs
Je cherche ce Script PHP[PHP] Réponses à un questionnaire en ligne
Problème d'encodage de caractères Access MySQL[PHP] Images suivantes et précédentes
Questionnaire PHP[AS400 / PHP] Update -> Pb de query
PHP+JS => Authentification par challange[PHP] Placer un fichier sur le poste client
[PHP] Probleme requette sqlMySQL : Impossible de récupérer données après restauration
Plus de sujets relatifs à : [Php] Indexation de document Pdf, Doc ou Xls sous PHP / MySQL


Copyright © 1997-2022 Hardware.fr SARL (Signaler un contenu illicite / Données personnelles) / Groupe LDLC / Shop HFR