REGEX, ExtracPDF, et dictionnaire

Recherche :

Mot : Pseudo : Filtrer
Bas de page
Auteur	Sujet : REGEX, ExtracPDF, et dictionnaire

daniel-12

Bonsoirje débute en python, depuis..1semainej'ai programmé des choses en VBA que je voudrais refaire en Python
Le but de mon outil est de :-lire et extraire le texte d'un PDF-lister des mot correspondant a une trame-comparer ces mots a un dictionnaire pour savoir s'ils sont bien ecrits et avoir des information dessus

Dans un premier temps, j'ai créé une boite de dialogue, qui me rempli une liste avec les lignes d'un fichier texte contenant un mot.
Ce que je voudais faire faire pour la suite, c'est lister les mot correspondant a une pattern regex
vous l'écririez comment ?

Code :

#!/usr/local/bin/python3
import tkinter
def lister():
liste.delete(0, tkinter.END)
with open ("liste.txt","r";) as fic:
for ligne in fic:
if 'toto' in ligne:
liste.insert(tkinter.END, ligne)
def effacer():
liste.delete(10, tkinter.END)
root = tkinter.Tk()
#root.resizable
root.title('Test listes...')
root.geometry("500x500";)
liste = tkinter.Listbox(root, width=80, height=25)
liste.grid(row=0, column=0, padx=15, pady=15)
frameButton = tkinter.Frame(root)
buttonLister = tkinter.Button(frameButton, text="Lister", command=lister)
buttonQuitter = tkinter.Button(frameButton, text="Quitter", command=root.destroy)
buttonEffacer = tkinter.Button(frameButton, text="Effacer", command=effacer)
buttonLister.grid(row=0, column=0)
buttonQuitter.grid(row=0, column=1)
buttonEffacer.grid(row=0, column=2)
frameButton.grid(row=1, column=0, padx=15, pady=15)
root.mainloop()

Message édité par daniel-12 le 05-03-2019 à 08:30:21

Publicité

daniel-12

Bonsoir.J'ai un peu avancé et fait ce code en utilisant les expressions régulières

Code :

import re
regex = r"[DdEe]d+[.|-]{0,1}d+[.|-]{0,1}d+"
with open ("liste.txt","r";) as fic:
for test_str in fic:
texte_trouve = re.findall(regex, test_str)
print (texte_trouve)

Cela me trouve bien ce que je veux, mais ça me mets aussi les strings vides, pourquoi, comment l'écrire un peu mieux ?
[]
[]
[]
['D53230075']
['D532.30075.000']
[]
[]
[]
[]
[]
[]
[]

Message édité par daniel-12 le 06-03-2019 à 21:16:50

MaybeEijOrNot

but someone at least

Bonjour,

Tu lis ton fichier ligne par ligne, à chaque ligne tu fais donc une recherche d'expression régulière et tu stockes la réponse dans une variable (text_trouve). Même quand rien n'est trouvé, il faut bien que ta fonction de recherche retourne quelque chose, ne serait-ce pour te dire qu'elle n'a rien trouvé.

Il te suffit de stocker les résultats non vides dans une autre variable.

---------------
C'est en écrivant n'importe quoi qu'on devient n'importe qui.

daniel-12

Code :

# coding: utf-8
import tkinter
import re
import PyPDF2
def lister():
liste.delete(0, tkinter.END)
F_PDF = open('NC2.pdf', 'rb') # <=== lz PDF
F_TXT = open('extract.txt', 'w') # <=== le txt
pdfreader = PyPDF2.PdfFileReader(F_PDF)
for pag_num in range(pdfreader.numPages):
pageobj = pdfreader.getPage(pag_num)
F_TXT.write(pageobj.extractText())
F_TXT.close()
F_PDF.close()
with open ("extract.txt","r",) as fic:
for test_str in fic:
r1 = re.findall(r"[F]d+[.|-| ]{0,1}d+[.|-| ]{0,1}d+ ", test_str)
if len(r1)==1:
liste.insert(tkinter.END, r1)

Bonsoir. J'ai avancé et j'arrive a extraire un PDF en TXT, puis j'arrive aussi a extraire des séquences genre F123-13245-123 de mon texte. Mais j'ai un soucis

Le premier c'est extraction du PDF en TXT, sur certain PDF ca ne marche pas...L'auriez vous déjà fait, avec des code plus efficaces
le deuxieme, est l'extraction via re.findall sur le fichier TXT généré, mon code ne marche pas.par contre si j'édite le TXT ca marche. et sur d'autre fichier txt issue de pdf mais extrait différement ca marcheVous avez une idée ?

Message édité par daniel-12 le 10-03-2019 à 22:08:47

vente7950

Easy & Fast

Hello,
Il y a PyPDF3 qui existe maintenant, mais je lui préfère quand même pdfminer
J'ai pas vraiment compris ton problème avec ta regex

---------------
Agence ZM - Création de sites vitrines pour artisans et entrepreneurs

daniel-12

Salut
le problème est résolu pour la partie regex
javais oublié au début de mettre
if len(r1)==1:
du coup j'avais les chaines vides qui remontaient

pour la partie PDF, le code que j'ai mis avec PyPDF2 fonctionne mais il est sensible au document qu'il doit traiter.
j'ai trouvé une solution avec un programme externe pdftotext
https://www.xpdfreader.com/

et un collègue m'a fourni une version avec pdfminer

si je veux rester a 100% en python, quel extracteur pdf=>txt vous me conseillez (d'après votre expérience)

FORUM HardWare.fr

Programmation

Python

REGEX, ExtracPDF, et dictionnaire

Sujets relatifs
Peux-t'on filtrer le résultat d'un groupe via une regex ?	Regex PHP (new line)
Regex pour remplacement de &	Aide pour regex
Aide sur une regex	Regex : capturer toutes les itérations d'un groupe capturant +
ecrire chaine utf8 json à partir d'un dictionnaire	Méthode pour placer tous les mots du dictionnaire dans une phrase.
filtre avec REGEX	Regex Split tableau
Plus de sujets relatifs à : REGEX, ExtracPDF, et dictionnaire

Page générée en 0.056 secondes