Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
2949 connectés 

  FORUM HardWare.fr
  Programmation
  Java

  WEKA et langage naturel

 


 Mot :   Pseudo :  
 
Bas de page
Auteur Sujet :

WEKA et langage naturel

n°1918562
Jarooooood
Posté le 26-08-2009 à 15:19:33  profilanswer
 

Bonjour,
 
Pour le compte de l'entreprise pour laquelle je travaille, je réalise un moteur qui permet de regrouper Sémantiquement des messages courts (max. 255 caractères).
 
Par exemple, des messages suivants:
 
le chat de la voisine attend
le chat patiente
la voisine mange des fruits
les fruits c'est bon pour la santé
j'aime bien les fruits et les légumes
y'a pas de quoi fouetter un chat
il faut faire du sport
le sport y'a rien de tel
la mort aux rats
le lion et le rat
allons boire un coup
 
je souhaite obtenir ce type de regroupement:
 
1 {le chat de la voisine attend, le chat patiente, y'a pas de quoi fouetter un chat}
 
2 {la voisine mange des fruits, les fruits c'est bon pour la santé, j'aime bien les fruits et les légumes}
 
3 {il faut faire du sport, le sport y'a rien de tel}
 
4 {la mort aux rats, le lion et le rat}
 
Non classés {allons boire un coup}
 
voici comment je procède:
 
phase 1:
j'utilise l'API lucène, pour décortiquer les phrases et ne garder que les radicaux des mots.
(par ex: le chat de la voisine attend ==> {cha, voisin, attend}).
les mots inutiles sont supprimés et les suffixes (ou terminaisons verbales ou liées au nombre) aussi.
 
phase 2:
pour chacune des listes de radicaux ainsi obtenus, je récupère des coordonnées binaires.
par ex: soit l'ensemble des mots du dictionnaire: {cha, voisin, attend, shtroumpf, bidul, machin, truc}
la phrase aura 1 ou 0 selon qu'elle possède ou non le mot. dans l'exemple précédent on obtient:
1 1 1 0 0 0 0
 
phase 3:
j'utilise WEKA pour regrouper avec un clusterer.
 
les résultats obtenus ne sont pas vraiment très bons dons j'essaye de complété avec la gestion des synonymes ou encore avec de l'apprentissage supervisé (nous avons beaucoup de messages en stock que nous avons déjà classés) toujours avec WEKA mais cette fois un classifier.
 
Des idées ou suggestion pour améliorer le traitement ?

mood
Publicité
Posté le 26-08-2009 à 15:19:33  profilanswer
 

n°2197250
levronray
Posté le 12-07-2013 à 10:23:27  profilanswer
 

Bonjour,  
Je sais que votre sujet date de 4 ans mais en ce moment je fais à peu près la même chose.
J'ai des idées et j'aimerai les partager avec vous, ce sujet vous intéresse encore?


Aller à :
Ajouter une réponse
  FORUM HardWare.fr
  Programmation
  Java

  WEKA et langage naturel

 

Sujets relatifs
Conseil langage programmation Excelproblème scrollView cocoa
quelle langage me conseiller vous???Projet d'application: quel langage utiliser ?
Langage C, Projet, Puissance 4 en langage Cquel langage?
langage avec GUIj'ai quelques exercice à faire en langage pascal...
[dotNet] Quel Langage choisir ?langage le plus demandé au niveau mondial?
Plus de sujets relatifs à : WEKA et langage naturel


Copyright © 1997-2022 Hardware.fr SARL (Signaler un contenu illicite / Données personnelles) / Groupe LDLC / Shop HFR