AIDE programme python DEBUTANT

Recherche :

Mot : Pseudo : Filtrer
Bas de page
Auteur	Sujet : AIDE programme python DEBUTANT

mimigeek

Bonjour à tous,

J'aurais besoin d'aide pour la confection d'un programme python, niveau débutant.
Je pense avoir bien avancé, mais il ne fonctionne toujours pas.

Voici l'énoncé:

Pour un texte quelconque, la tache consiste à remplacer chaque nom qui s'y trouve par celui que
l'on trouve dans un dictionnaire 7 entrées après lui. Par exemple, on remplace ainsi «mot» par «motivation» et «phrase» par «phrénologie».
Votre programme devra s'appuyer sur des listes de noms (extraits du lexique morphologique de l'ABU), rechercher dans le texte les noms à remplacer, et produire en sortie le texte résultant de ces substitutions.

Mon lexique ABU a donc comme nom "lexique-ABU.txt"
Et mon texte "RaiponceETIQ.txt"

Voici le programme crée:
(devant chaque [.i], j'ai mis un point, sinon cette séquence etait prise pour une balise italique.)

Code :

import re
 
#tableau pour lexiqueABU
# J'ai extrait les noms, et je les ai mis dans un tableau 1 colonne.
entree=open("lexique-ABU.txt", mode="r" )
sortie=open ("lexique-ABUNOM.txt", mode="w" )
mots=[]
for ligne in entree:
    ligne=ligne.rstrip("\n" )
    test=re.search(r"(.*)\t.*\tNom:.*$", ligne)
    if test:
        print (test.group(1), file=sortie)
 
entree.close()
 
#tableau pour texte
# J'ai fais un tableau 3 colonnes avec mots du texte. FORME, LEMME, TAG
entree=open("RaiponceETIQ.txt", mode="r" )
sortie=open("RaiponceETIQNOM.txt", mode="w" )
 
formes=[]
lemmes=[]
tags=[]
for ligne in entree:
    ligne=ligne.rstrip("\n" )
    test=re.search(r"(.*)\t(.*)\t(.*)", ligne)
    if test:
        formes.append(test.group(1))
        tags.append(test.group(2))
        lemmes.append(test.group(3))
entree.close()
 
#code pour chercher NOMS du texte dans le tableau.
#  si c'est PAS un nom, j'imprime.
i=0
while i<len(mots)-1:
    if tags[.i]!="NOM" in entree:
        print (formes[.i], end=" " )
   
    i=i+1
 
sortie.close()
 
# si c'est un NOM, je substitue.
entree2=open ("lexique-ABUNOM.txt", mode="r" )
sortie2=open ("lexique-ABUNOMTAB.txt", mode="w" )
mots=[]
for ligne in entree2:
    ligne=ligne.rstrip("\n" )
    test=re.search(r"(.*)$", ligne)
    if test:
        mots.append(test.group(1))
       
entree2.close()
 
i=0
while i<len(mots)-1:
    if tags[.i]=="NOM" in entree:
        test=re.sub("formes[.i]", mots[.i]+7, ligne)
        print (test, end=" " )
    i=i+1

(devant chaque [.i], j'ai mis un point, sinon cette séquence etait prise pour une balise italique)
En espérant que vous pourrez m'aider.
Merci par avance !

Message édité par gilou le 11-04-2016 à 12:04:00

Publicité

bistouille

Il y a une balise code (bouton c/c++) pour rendre ton code lisible.

Sinon, si j'ai bien compris, tu dois remplacer certains mots par d'autres dans un texte prédéfini, c'est ça ?

---------------
On croit souvent avoir vu le fond de la stupidité humaine, et il parfois nécessaire qu'on vous rappelle qu'elle n'a pas de fond.

mimigeek

Ah super, je ne savais pas, je ne suis pas habitué aux forums.

Oui je dois remplacer les noms d'un texte prédéfini, par les noms d'un lexique prédéfini aussi.

bistouille

Je comprends pas la logique de ton code

Comme tu ne précises pas où ton problème se situe, récupération des mots ? remplacement ?

Le truc est assez simple :

- Récupération du texte de base
- Copie de ce texte dans une autre variable (c'est sur celle-ci que les mots seront remplacés)

- Récupération des mots à remplacer et leurs remplacements.
Là tu as les choix de les stocker soit dans 2 listes ou tuples ou dans un dict

- Et enfin le remplacements des mots dans le texte.

Message cité 1 fois

---------------
On croit souvent avoir vu le fond de la stupidité humaine, et il parfois nécessaire qu'on vous rappelle qu'elle n'a pas de fond.

gilou

Modérateur
Modzilla

> extraits du lexique morphologique de l'ABU
Si ce sont les fichiers de abu.cnam.fr ils sont pleins d'erreurs.

Remplacer un nom par le nom+7 c'est pas difficile, mais faut faire gaffe au genre et nombre, sinon le texte final risque de faire assez désordre.

A+,

---------------
There's more than what can be linked! -- Iyashikei Anime Forever! -- AngularJS c'est un framework d'engulé! --

mimigeek

bistouille a écrit :

Mon problème arrive à partir du moment où je souhaite mémoriser le mot qui est un nom, et le remplacer (plus précisement, à partir de la ligne 44). Je ne sais pas écrire le code pour la récupération des mots à remplacer et effectuer leurs remplacements
Je ne sais simplement quoi écrire...
Je suis vraiment novice.

J'ai oublié de préciser, que le lexique ABU est à la base sous forme de 3 colonnes, une colonnes avec la forme (paquerettes), une colonne avec le lemme (PAQUERETTE) et une colonne avec le tag (NOM: fem.pl).
Mais j'en ai extrait tous les noms, et lexique-ABUNOM.txt est donc sous la forme d'une seule colonne, avec la forme de chaque noms.
Aussi, le sens du texte final, n'a aucune importance.
Il n'est pas important de se soucier de l'accord en genre et en nombre.

Merci pour votre aide.

bistouille

Ah ok, je connaissais pas ce format de données de fichier.

Donc si ta liste est bonne, il suffit juste de faire un remplacement sur le texte.

Du genre :

Code :

for cle, valeur in enumerate(taListeDeMots) :
texte = re.sub('(?<=\W)' + valeur + '(?=\W)', taListeDeMots[cle + 7], texte)

Message cité 1 fois

---------------
On croit souvent avoir vu le fond de la stupidité humaine, et il parfois nécessaire qu'on vous rappelle qu'elle n'a pas de fond.

mimigeek

bistouille a écrit :

Ah ok, je connaissais pas ce format de données de fichier.

Donc si ta liste est bonne, il suffit juste de faire un remplacement sur le texte.

Du genre :

Code :

for cle, valeur in enumerate(taListeDeMots) :
texte = re.sub('(?<=\W)' + valeur + '(?=\W)', taListeDeMots[cle + 7], texte)

D'accord, mais comme je vous ai dis, je suis vraiment novice, et je ne sais absolument pas où placer cela parmi ce que j'ai deja fais.
Et que signifi ('(?<=\W)' + valeur + '(?=\W)', je n'ai jamais vu ces expressions.

Merci beaucoup pour votre aide !

bistouille

Pour la signification, c'est indiqué dans le module re de la doc python.

(?<=valeur) signifie " est précédé de "
(?=valeur) signifie " est suivi de "
\W représente un caractère non unicode.

Il y a également \b (délimiteur de mot), ne fonctionne pas chez moi, car il est lié au locales.

Donc l'expression est de cette forme pour éviter de remplacer les mots contenus dans d'autres.

Bon, sinon, pourrais-tu poster quelques lignes de ton fichier de mots ? (une 50aine ~)
J'ai la flemme de chercher sur le net un fichier de ce type

Message cité 1 fois

---------------
On croit souvent avoir vu le fond de la stupidité humaine, et il parfois nécessaire qu'on vous rappelle qu'elle n'a pas de fond.

mimigeek

bistouille a écrit :

Quelques lignes de mon fichier texte dans lequel je dois remplacer les noms:
Il PRO:PER il
était VER:impf être
une DET:ART un
fois NOM foi|fois
un DET:ART un
mari NOM mari
et KON et
sa DET:POS son
femme NOM femme
qui PRO:REL qui
avaient VER:impf avoir
depuis PRP depuis
longtemps ADV longtemps
désiré VER:pper désirer
avoir VER:infi avoir
un DET:ART un
enfant NOM enfant

Quelques lignes de mon fichier lexiqueNOM, dans lequel je dois piocher les noms (rechercher le nom sélectionner dans le texte et le remplacer par le mot qui se trouve 7 entrées plus loin.) Dans ce lexique, il n'y a deja que des noms.
a
abaca
abacule
abaisse
abaissée
abaissées
abaissement
abaissements
abaisses
abaisseur
abaisse-langue
abajoue
abandon
abandonnataire
abandonné
abandonnée
abandonnées
abandonnés
abandons
abaque
abasourdissement
abat
abatage

Publicité

bistouille

Ok, voici une exemple de script fonctionnel.

Code :

import re
# Remplacer ici par les chemins vers tes fichiers
fichierTexte = './texte'
fichierMots = './mots'
# Stockage des mots à rechercher et remplacer en index d'un dict avec None pour valeur
motsRecherches = {'mari':None, 'femme':None, 'enfant':None}
texte = ''
with open(fichierTexte, 'r') as fichier :
for ligne in fichier :
mot = re.search('^[^\s]+', ligne) # Recherche de tous les caractères non blancs, à partir du début de la ligne
if mot :
texte += mot.group(0) + ' '
texte = texte.rstrip(' ')
print(texte)
# Ici on parcours donc les mots du fichier que l'on compare
i = 1
with open(fichierMots, 'r') as fichier :
for ligne in fichier :
mot = re.search('^[^\s]+', ligne) # Idem que précédemment
# Si le mot de la ligne est en index des mots à rechercher
if mot.group(0) in motsRecherches.keys() :
motsRecherches[mot.group(0)] = i + 7 # On stocke le n° de ligne en valeur
# Ici on regarde si le n° de ligne en cours existe en valeur des mots à rechercher
# Si présent on le remplace par le mot de la ligne en cours
for cle, valeur in motsRecherches.items() :
if valeur == i :
motsRecherches[cle] = mot.group(0)
i += 1
print(motsRecherches)
# Il ne reste plus qu'à faire les remplacements dans le texte
# l'expression ((?<=\W)|(?<=^)) signifie :
# (?<=\W) non précédé d'un caractère unicode
# | ou
# (?<=^) précédé du début de la chaine
# Même chose pour l'expression de fin, sauf pour le $ qui représente la fin de la chaine
for cle, valeur in motsRecherches.items() :
texte = re.sub('((?<=\W)|(?<=^))' + cle + '((?=\W)|(?=$))', valeur, texte)
print(texte)

Avec pour fichier de mots :

Citation :

a
mari
abaca
abacule
abaisse
abaissée
abaissées
abaissement
fou
abaissements
femme
abaisses
abaisseur
abaisse-langue
abajoue
abandon
abandonnataire
folle
abandonné
enfant
abandonnée
abandonnées
abandonnés
abandons
abaque
abasourdissement
alien
abat
abatage

J'ai mis pas mal de commentaires dans le code pour que tu comprennes la logique, bon les expressions régulières c'est pas facile à expliquer en quelques phrases, surtout si ça te donne des boutons, moi j'adore ça

Message édité par bistouille le 12-04-2016 à 12:39:08

---------------
On croit souvent avoir vu le fond de la stupidité humaine, et il parfois nécessaire qu'on vous rappelle qu'elle n'a pas de fond.

FORUM HardWare.fr

Programmation

Python

AIDE programme python DEBUTANT

Sujets relatifs
Demande d'aide pour instaler l'environement d'un FPGA	appel de sous programme par entrée textuelle.
probleme programme arduino shield infrarouge ap.photo canon eos 500d	Aide pour exercice c
Client/Serveur Python	Traduction d'un programme C en python
[python] conseil pour la création d'un serveur de jeux	pistes pour traduction code écrit en C en python
Aide sur un code Python	[Python] Aide pour un programme de débutant
Plus de sujets relatifs à : AIDE programme python DEBUTANT

Page générée en 0.118 secondes