non

Recherche :

Mot : Pseudo : Filtrer
Bas de page
Auteur	Sujet : non

ihsene09

bonsoir tout le monde je cherche une fonction pour filtrer les mots inutiles (vides) j'ai un corpus après avoir fait la segmentation en phrase et en mot maintenant je dois enlever les mots inutiles par exemple : le la mais ....etc mais je ne sais pas comme faire merci d'avance ^^

Publicité

eyquem

Il faut spécifier dans une structure les mots que tu considères comme inutiles et les enlever du corpus de mots que tu as obtenus. Un programme ne peut pas savoir ce que tu veux si tu ne le lui dit pas.

Je ne sais pas comment tu as obtenu les mots à partir d'un texte. Dans mon code suivant, j'utilise re.split
Je fais de exclure un tuple, car un tuple est un objet qui prend moins de place en mémoire qu'une liste.

Code :

import re
ss = "Lancé officiellement au début du mois d'avril, le chipset Z77 "\
"représente une évolution originale pour Intel, ne serait-ce que "\
"dans la stratégie. D'abord il y a la question du socket et de "\
"la compatibilité avec les processeurs, toujours importante."
inutiles = 'le la les une d de du dans des à au ce ne avec pour que et mais y'
exclure = inutiles.split()
exclure.extend(x.capitalize() for x in exclure[:])
exclure.append('')
exclure = tuple(exclure)
mots = [ mot for mot in re.split('[- .,\'"]+',ss) if mot not in exclure ]
print ss
print
print exclure
print
print mots

Résultat

Code :

Lancé officiellement au début du mois d'avril, le chipset Z77 représente une évolution originale pour Intel, ne serait-ce que dans la stratégie. D'abord il y a la question du socket et de la compatibilité avec les processeurs, toujours importante.
('le', 'la', 'les', 'une', 'd', 'de', 'du', 'dans', 'des', '\xe0', 'au', 'ce', 'ne', 'avec', 'pour', 'que', 'et', 'mais', 'y', 'Le', 'La', 'Les', 'Une', 'D', 'De', 'Du', 'Dans', 'Des', '\xc0', 'Au', 'Ce', 'Ne', 'Avec', 'Pour', 'Que', 'Et', 'Mais', 'Y', '')
['Lanc\xe9', 'officiellement', 'd\xe9but', 'mois', 'avril', 'chipset', 'Z77', 'repr\xe9sente', '\xe9volution', 'originale', 'Intel', 'serait', 'strat\xe9gie', 'abord', 'il', 'a', 'question', 'socket', 'compatibilit\xe9', 'processeurs', 'toujours', 'importante']

ihsene09

merci beaucoup ^^ je peux vous demander autre chose j'ai besoin de classé ces mots en fonctions des phrases essayer de trouver la matrice d'occurrence terme-phrase (elle représente les mots en fonction des phrases) et cela en calculant le nombre d'occurrence d'un terme dans une phrase.
les mettre dans une matrice booléenne et je ne sais pas comment faire

ihsene09

pour la segmentation des mots vous utilisez la fonction split
code : q= ss.split(' ')

FORUM HardWare.fr

Programmation

Python

non

Sujets relatifs
Plus de sujets relatifs à : non

Page générée en 0.101 secondes