|
Bas de page | |
---|---|
Auteur | Sujet : probleme dans le resultats d'un script qui cherche de mots |
Publicité | Posté le 10-05-2016 à 16:42:12 |
rat de combat attention rongeur méchant! |
|
debut25 | Les textes sont en italien,
|
rat de combat attention rongeur méchant! | (Dans les forum je tutoie - libre à toi bien sûr de faire de même.) Tu peux montrer la première partie du script? (Entre parenthèses, faut toujours donner le script complet pour faciliter la vie aux gens qui veulent bien aider...) Sous quelle forme exactement tu reçois les textes, un texte par ligne? Parce que ça serait bien plus élégant à traiter... Le problème est que quand on rencontre un identifiant (numéro) il ne faut pas imprimer cet identifiant et le résultat mais l'identifiant d'avant (car c'est pour celui-là que le résultat est vrai). J'ai corrigé ton script en gardant la logique du code (et modifié quelque détails en passant), ça fonctionne mais c'est vraiment moche... (Pour la prochaine fois, le code entre balises [ code=perl] script ici [ /code] (sans les espaces) c'est bien plus lisible.)
Si jamais il est possible de récupérer les articles ligne par ligne voici ma version que je trouve bien plus propre:
Par contre il reste un problème: Quand on cherche p.ex. "Napolitano" on ne trouvera rien avec ce script - parce que dans le texte c'est marqué "#Napolitano:". Je propose donc de "nettoyer" chaque mot avant la comparaison avec un truc genre $mot=~s/[:!#.;"?,]//g;. Message édité par rat de combat le 11-05-2016 à 01:26:15 |
gilou ModérateurModzilla | Un truc de ce genre devrait faire ce que vous voulez.
Message édité par gilou le 11-05-2016 à 01:29:15 --------------- There's more than what can be linked! -- Iyashikei Anime Forever! -- AngularJS c'est un framework d'engulé! -- |
gilou ModérateurModzilla | Et en intégrant le préambule de RdC pour tester
Message cité 1 fois Message édité par gilou le 11-05-2016 à 01:41:45 --------------- There's more than what can be linked! -- Iyashikei Anime Forever! -- AngularJS c'est un framework d'engulé! -- |
rat de combat attention rongeur méchant! |
edit: L'utilisation de \b introduit un comportement qui peut être un bug: On retrouve dans la liste des mots aussi les mots qui se trouvent dans d'éventuells liens - autrement dit si j'ai dans le premier article un lien avec une adresse genre http://Grillo.Machin.Chose.it j'aurai $mot_trouv=1. A voir si c'est un problème (je dis ça si le TO veut réutiliser \b). Message édité par rat de combat le 11-05-2016 à 01:58:35 |
gilou ModérateurModzilla | > L'utilisation de \b introduit un comportement qui peut être un bug...
Message édité par gilou le 11-05-2016 à 04:04:10 --------------- There's more than what can be linked! -- Iyashikei Anime Forever! -- AngularJS c'est un framework d'engulé! -- |
Publicité | Posté le 11-05-2016 à 02:32:48 |
debut25 | je vous remercie pour vos conseils! et pour tous les infos! ça m'aide beaucoup!!! mercie encore et bonne journée! |
gilou ModérateurModzilla | Noter que pour le tokenizer, comme on a des mots avec accents (qui plaisent pas au split /\b/ on peut faire
Message édité par gilou le 11-05-2016 à 16:02:13 --------------- There's more than what can be linked! -- Iyashikei Anime Forever! -- AngularJS c'est un framework d'engulé! -- |