Bonjour,
Je cherche à écrire/adapter un script qui permet, dans un texte / contenu textuel de :
trouver les termes liés deux à deux ou trois à trois.
Par exemple dans :
"la confédération paysanne a déclaré que le prix du porc ne devait pas passer sous la barre des 5 EUR. Mais face à eux, le Ministère de l'Agriculture maintient sa volonté de baisse du prix du porc. La confédération paysanne prépare un mouvement de contestation le 5 septembre."
le script doit trouver que "confédération paysanne" est une expression signifiante, puisqu'on la retrouve deux fois. Idem pour "prix du porc".
Il y a bien sur la voie brutale de faire des explode des termes deux à deux "la confédération", "confédération paysanne", "paysanne a", "a déclaré", "déclaré que", "que le", etc... et d'analyser la fréquence d'occurence de chaque doublette.
Et idem pour les triplettes, etc.
Mais il y a peut être des choses existantes / des voies plus intelligentes de faire la meme chose... qu'en pensez vous ?