Créer listes par longueur de mots

Recherche :

Mot : Pseudo : Filtrer
Bas de page
Auteur	Sujet : Créer listes par longueur de mots

pito2901

Bonjour,

Je souhaite faire un programme qui d'abord :
- prend le texte d'un fichier.txt et le place dans une liste
- remplace les accents par les minuscules équivalentes
- enlève la ponctuation
- convertit la liste en minuscule
- sépare les mots
- tri les mots par longueur (puis ordre alphabétique)

Voici mon programme :

Code :

fichier = open('fichier_a_convertir.txt','r') #ouvre fichier
chaine = fichier.read() #lire le contenu du fichier
fichier.close() #fermer fichier
#enlever les accents
chaine = chaine.replace("é","e" )
chaine = chaine.replace("è","e" )
chaine = chaine.replace("ê","e" )
chaine = chaine.replace("à","a" )
chaine = chaine.replace("ï","i" )
chaine = chaine.replace("î","i" )
chaine = chaine.replace("ù","u" )
#enlever la ponctuation
longueur = len(chaine) #longueur du paragraphe
chaine1 = '' #initialisation du texte converti
for i in range(longueur):
if ord(chaine[i])==32 or ord(chaine[i])>=65 and ord(chaine[i])<=90 or ord(chaine[i])>=97 and ord(chaine[i])<=122:
#ASCII = 32 → espace / 65~90 → A...Z / 90~122 → a...Z
chaine1 = chaine1 + chaine[i]
else:
chaine1 = chaine1 + " "
i = i+1
chaine1 = chaine1.lower() #mettre le texte en minuscule
liste = chaine1.split() #classer chaque mot dans une liste
liste.sort() #tri alphabétique
print(liste) #afficher cette liste

Or le programme m'affiche :
['a', 'a', 'a', 'a', 'amazone', 'aux', 'avoir', 'ces', 'craindre', 'de'...

Ce que j'aimerai, c'est qu'il affiche :
['a', 'a', 'a', 'a', 'ces', 'de', 'aux', 'avoir', 'amazone', 'craindre'...

Ensuite, est-il possible de classer les mots par longueur dans des listes différentes, exemple:

Une liste contenant tous les mots de longueur 1
puis de longueur 2
puis de longueur 4 (s'il n'y a pas 3...)

Merci de votre lecture.

Publicité

suizokukan

Déjà, réécrire ton code d'une manière plus pythonesque :

Code :

equiv = {
"â" : "a",
"é" : "e",
}
characters_ok = (" ",
"a", "b", "c", "d", "e", "f", "g", "h", "i",
"j", "k", "l", "m", "n", "o", "p", "q", "r",
"s", "t", "u", "v", "w", "x", "y", "z",
"A", "B", "C", "D", "E", "F", "G", "H", "I",
"J", "K", "L", "M", "N", "O", "P", "Q", "R",
"S", "T", "U", "V", "W", "X", "Y", "Z",)
with open("src.txt",'r') as src_file:
content = src_file.read()
for src, dest in equiv.items():
content = content.replace(src, dest)
content = "".join(char for char in content if char in characters_ok)
content = content.lower()
liste = content.split()
liste.sort()
print(liste)

---------------
rule #1 : trust the python

suizokukan

Pour le reste, je n'ai pas compris le rapport entre l'énoncé du problème et le résultat que tu nous montres; pour ma part, voici comment je procéderais, en ajoutant au début de chaque mot un préfixe numérique égal à la taille du mot. Ainsi .sort() trie d'abord la taille, puis le mot lui-même.

Code :

equiv = {
"â" : "a",
"é" : "e",
}
characters_ok = (" ",
"a", "b", "c", "d", "e", "f", "g", "h", "i",
"j", "k", "l", "m", "n", "o", "p", "q", "r",
"s", "t", "u", "v", "w", "x", "y", "z",
"A", "B", "C", "D", "E", "F", "G", "H", "I",
"J", "K", "L", "M", "N", "O", "P", "Q", "R",
"S", "T", "U", "V", "W", "X", "Y", "Z",)
with open("src.txt",'r') as src_file:
content = src_file.read()
for src, dest in equiv.items():
content = content.replace(src, dest)
content = "".join(char for char in content if char in characters_ok)
content = content.lower()
# liste = ['0001a', '0002de', '0005avoir']
liste = ["{0:04}".format(len(word)) + word for word in content.split()]
liste.sort()
# enlever le préfixe numérique à chaque mot :
liste = [word[4:] for word in liste]
print(liste)

Qu'en penses-tu ?

Message cité 1 fois

---------------
rule #1 : trust the python

pito2901

Bah déjà merci !

Mais je suis débutant en python et ne connais donc pas l'ensemble des fonctions que tu utilises :

.items() → qu'est-ce ?

d'où vient la variable dest ?

Code :

content = "".join(char for char in content if char in characters_ok)

Cette ligne ajoute que les lettres contenues dans characters_ok ?

Code :

liste = ["{0:04}".format(len(word)) + word for word in content.split()]

Que fait cette ligne ?

masklinn

í dag viðrar vel til loftárása

suizokukan a écrit :

pour ma part, voici comment je procéderais, en ajoutant au début de chaque mot un préfixe numérique égal à la taille du mot. Ainsi .sort() trie d'abord la taille

Ya plus besoin de faire du DSU hein (et quand bien même c'était à base de tuples), tu peux filer une fonction key= à sort ou sorted qui calcule la clé de tri:

Code :

>>> words = ['a', 'a', 'a', 'a', 'amazone', 'aux', 'avoir', 'ces', 'craindre', 'de']
>>> sorted(words, key=lambda w: (len(w), w))
['a', 'a', 'a', 'a', 'de', 'aux', 'ces', 'avoir', 'amazone', 'craindre']

suizokukan a écrit :

Qu'en penses-tu ?

Les remplacements de caractères codés en dur c'est quand même cradox, perso j'utiliserais unicodedata pour faire une décomposition canonique et ne garder que les caractères de base:

Code :

import unicodedata
 
words = ["été", "enlève", "être"]
 
def unaccent(word):
    return ''.join(
        letter
        for letter in unicodedata.normalize("NFD", word)
        if not unicodedata.combining(letter)
    )
 
print(list(map(unaccent, words)))

=> ['ete', 'enleve', 'etre']

Et si les libs externes sont permises, Unidecode c'est encore mieux.

Message édité par masklinn le 11-01-2015 à 21:51:57

---------------
I mean, true, a cancer will probably destroy its host organism. But what about the cells whose mutations allow them to think outside the box by throwing away the limits imposed by overbearing genetic regulations? Isn't that a good thing?

suizokukan

.items() → "d".items() renvoie une liste de couple (clef, valeur) du dictionnaire "d". La doc est ici : https://docs.python.org/3.4/library/stdtypes.html . Par exemple, j'aurais pu écrire :

Code :

for key, value in d.items()

ou encore

Code :

for k, v in d.items()

Code :

content = "".join(char for char in content if char in characters_ok)

est plus compliqué à comprendre. L'idée est d'éviter en Python d'ajouter les chaînes les unes aux autres avec "+" ou "+=", car c'est lent. Il est plus rapide de créer une liste :

Code :

liste = ['a', 'b']

... de la manipuler en ne retenant que les caractères autorisés :

Code :

liste2 = [car for car in liste if car in caractères_autorisés]

... et enfin de transformer cette liste en chaîne de caractères en concaténant chaque élément, par exemple avec un "*" :

Code :

"*".join(list2)

renverra quelque chose comme "*a*b", tandis que :

Code :

"".join(list2)

renverrait "ab"

S'agissant de

Code :

liste = ["{0:04}".format(len(word)) + word for word in content.split()]

, pour chaque word dans content.split(), je l'ajoute à une nouvelle "liste" mais je fais d'abord précéder ce word de "{0:04}".format(len(word)).
"{0:04}".format(len(word)) est une manière de dire : crée une chaîne de caractères contenant une chaîne vide avec un argument nommé {0}, de quatre chiffres de longueur avec remplissage par des zéros s'il en manque ('0001' et non '1'). Le {0} est remplacé par len(word), soit la longueur de word.

Message édité par suizokukan le 11-01-2015 à 21:56:27

---------------
rule #1 : trust the python

suizokukan

> Pito2901, je souscris complètement au code de Masklinn. Ici, DSU=http://en.wikipedia.org/wiki/Disjo [...] _structure .

Message cité 1 fois

---------------
rule #1 : trust the python

masklinn

í dag viðrar vel til loftárása

suizokukan a écrit :

Ici, DSU=http://en.wikipedia.org/wiki/Disjo [...] _structure .

Presque, c'est decorate-sort-undecorate

suizokukan

Oups, merci, je ne connaissais pas.

---------------
rule #1 : trust the python

FORUM HardWare.fr

Programmation

Python

Créer listes par longueur de mots

Sujets relatifs
2 listes identiques mais à différencier	[HTML/CSS] Créer un forums à l’interrieur de mon site
verouiller un dossier par un mots de passe + cryptage	Dict et listes imbriquées ; comment faire ?
Créer un wiki avec un lightweight WYSIWYG	longueur max requete access
boucle pour creer une énumération	HTML+FLASH Créer un lecteur WebRadio
Créer un exécutable à partir d'un script Perl	Comment créer un lien avec des éléments d'une base de données?
Plus de sujets relatifs à : Créer listes par longueur de mots

Page générée en 0.125 secondes