Perl

perl + comparaison + xml

Recherche :

Mot : Pseudo : Filtrer
Page : 1 2 Page Suivante Page Précédente Bas de page
Auteur	Sujet : perl + comparaison + xml

rim_enis

j'aime ENIS

Bonjour ,
Je débute encore avec perl , j'ai un fichier XML "BaseEtiquette" sous cette forme :

<?xml version="1.0" encoding="UTF-8"?>
<listeDesEtiquettes>

<mot>
<synonyme>أَيْ</synonyme>
<etiquette>Confirmation</etiquette>
</mot>

<mot>
<synonyme>تْفَضَّلْ</synonyme>
<etiquette>Politesse</etiquette>
</mot>
</listeDesEtiquettes>

J'ai reussi à récuperer un tableau qui contient tous les synonymes @tabMot et un tableau des etiquettes @tabEtiquettes ;
j'ai un autre fichier qui contient des phrases , mon but est d'associer pour chaque mot de chaque phrase son etiquette , mon idée est de parcourir les phrases mot par mot et si le mot existe dans @tabMot alors je recupère sa position $pos et je fait une concaténation avec @tabEtiqeutte[$pos] pour avoir en fin un fichier en sortie de la forme suivante :
mot1 <etiquette1> mot 2 <etiquette2> ...
voici un exemple de mon fichier d'entré :
أَيْ تْفَضَّلْ خُويَا
مْعَ وَقْتَاشْ بِاللَهْ إِيْ إِيْ التْرَانْ يِمْشِي
en fait j'ai essayé le code suivant avec seulement la première phrase de mon fichier d'entré :

Code :

open(F,'E:\\Mastère_2013\\perlXML\\Corpusss.txt') or die ("Erreur d'ouverture " ) ;
my @Ti = <F>;
@words = split(/ /, $Ti[$0]);
for ($i = 0; $i < $#words+1; $i++)
{
chomp;
s/^\s+|\s+$//g;
for($j = 0; $j < $#tabMot+1; $j++)
{
chomp;
s/^\s+|\s+$//g;
if($words[$i] eq $tabMot[$j])
{
my $PosEtiq = $j;
$words[$i] = $words[$i]." " .$tabEtiquettes[$PosEtiq];;
print "ok";
}
else
{
print "no";
}
}
}

mon problème est que malgré les mots sont egaux mais toujours les résultats sont fausses ...
c'est quoi le problème ?? et y'a t'il une autre solution que me permet d'associer a chaque mot une etiquette sans passer par le tableau @words et sans faire le split
Merci d'avance

Message édité par rim_enis le 16-04-2013 à 11:19:53

Publicité

gilou

Modosaurus Rex

Bonjour, le problème vient peut être de ce que vous n'êtes plus dans un encodage de base, et qu'il faut l'indiquer explicitement avec un use feature 'unicode_strings';

Code :

#!/usr/bin/perl
use strict;
use warnings;
use autodie;
use feature 'unicode_strings';
 
# en entrée, une reference sur un hash %syn et le nom du fichier xml
# en sortie %syn est rempli avec comme les synonymes comme clés et les étiquettes comme valeurs.
sub parseBase ($$) {
  use XML::Simple;
  my $href = shift;
  my $data = XMLin(shift);
  foreach(@{$data->{mot}}) {
    $href->{$_->{'synonyme'}} = $_->{'etiquette'};
  }
}
 
 
my %syn;
parseBase(\%syn, 'BaseEtiquette.xml');
 
 
open my $fh,  "<:utf8", 'corpus.txt';
open my $fh1, ">:utf8", 'result.txt';
my $linenum = 0;
foreach(<$fh> ) {
  # Si BOM initiale
  unless ($linenum++ and /^\x{feff}/) {
    s/^\x{feff}// ;
    print $fh1 "\x{feff}";
  }
  my @words = split /\b/;
  foreach (@words) {
    print $fh1 $_;
    # si le mot figure dans la liste des synonymes
    if ($syn{$_}) {
      print $fh1  " $syn{$_} ";
    }
  }
}
close $fh1;
close $fh;

BaseEtiquette.xml et corpus.txt sont deux fichiers en utf-8 ou j'ai mis vos données exemple.
Le split sur \b (frontière de mots) a des chances d'être plus général que celui sur \s
Le résultat est écrit dans un fichier utf-8, result.txt
Selon les logiciels, l'affichage des lignes mixtes est OK ou non: c'est OK sous emacs, mais l'ordre des mots est inversé sous notepad.

A+,

Message cité 1 fois
Message édité par gilou le 16-04-2013 à 23:08:30

---------------
There's more than what can be linked! -- Le capitaine qui ne veut pas obéir à la carte finira par obéir aux récifs. -- Les paroles s'envolent, les APIs REST -- Hacker vaillant rien d'impossible -- (╯°□°)╯︵ ┻━┻

gilou

Modosaurus Rex

Et sinon, déjà dans votre code,
@words = split(/ /, $Ti[$0]);
C'est complètement faux.
$0 c'est le nom du script perl en cours d'execution.
Donc aucune chance que @words contienne quelque chose.
Et si @words est vide, il n'y aura pas de comparaison d'effectuée.

A+,

Message cité 1 fois

rim_enis

j'aime ENIS

bonsoir,
Merci beaucoup gilou pour votre aide , c'est très gentil de votre part , comment je peux inverser l'ordre des mots puisque je travaille avec notepad ?? et comment je peux ajouter au début et la fin de chaque ligne un mot dans le fichier résultat ??
Merci d'avance

rim_enis

j'aime ENIS

gilou a écrit :

c'est une faute de frappe , le problème était un problème d'encodage

rim_enis

j'aime ENIS

gilou a écrit :

Bonjour, le problème vient peut être de ce que vous n'êtes plus dans un encodage de base, et qu'il faut l'indiquer explicitement avec un use feature 'unicode_strings';

Code :

#!/usr/bin/perl
use strict;
use warnings;
use autodie;
use feature 'unicode_strings';
 
# en entrée, une reference sur un hash %syn et le nom du fichier xml
# en sortie %syn est rempli avec comme les synonymes comme clés et les étiquettes comme valeurs.
sub parseBase ($$) {
  use XML::Simple;
  my $href = shift;
  my $data = XMLin(shift);
  foreach(@{$data->{mot}}) {
    $href->{$_->{'synonyme'}} = $_->{'etiquette'};
  }
}
 
 
my %syn;
parseBase(\%syn, 'BaseEtiquette.xml');
 
 
open my $fh,  "<:utf8", 'corpus.txt';
open my $fh1, ">:utf8", 'result.txt';
my $linenum = 0;
foreach(<$fh> ) {
  # Si BOM initiale
  unless ($linenum++ and /^\x{feff}/) {
    s/^\x{feff}// ;
    print $fh1 "\x{feff}";
  }
  my @words = split /\b/;
  foreach (@words) {
    print $fh1 $_;
    # si le mot figure dans la liste des synonymes
    if ($syn{$_}) {
      print $fh1  " $syn{$_} ";
    }
  }
}
close $fh1;
close $fh;

Bonjour gilou, j'ai pas compris que fait exactement ce code :

Code :

unless ($linenum++ and /^\x{feff}/) {
s/^\x{feff}// ;
print $fh1 "\x{feff}";
}

aussi j'ai fait : ( pour ajouter <deb> au début de chque ligne de mon fichier resultat et <fin> a la fin mais les 2 expressions ne fonctionnent pas !!!!

Code :

$_ =~ s/ +$/ <deb> /g;
$_ =~ s/^\s+/ <fin> /g;

et comment je peu inverser l'ordre sachant que j'utilise notepad ???
Merci de me répondre je serai très reconnaissante

Message cité 1 fois

gilou

Modosaurus Rex

rim_enis a écrit :

Bonjour gilou, j'ai pas compris que fait exactement ce code :

Code :

unless ($linenum++ and /^\x{feff}/) {
s/^\x{feff}// ;
print $fh1 "\x{feff}";
}

Tiens, à la relecture, je vois que ça marche, mais pas pour la bonne raison, et que le test n'est pas correct.

Code :

unless ($linenum++ or not /^\x{feff}/) {
    s/^\x{feff}// ;
    print $fh1 "\x{feff}"; 
  }

Si on n'est pas sur la première ligne, ou si on n'a pas de BOM en début de ligne, on de fait rien, tandis que si on est en première ligne et qu'on a une BOM en début de ligne, on la vire du texte traité, et on la recopie en sortie.
En fait, ce code était utile quand je testais avec votre code pour le split sur \s, car il splittait le premier mot au premier blanc, et donc ce premier mot avait la BOM en premier caractère. Il servait à traiter ce cas particulier. Mais maintenant que je splitte sur \b (ce qui de plus conserve tous les caractères en entrée, votre code avait lui le problème que vous perdiez des blancs en sortie, d'ou une fusion de certains mots), il splitte la première ligne avec la BOM en premier élément du tableau, et le premier mot en second.
Ce code est donc devenu inutile, et vous pourriez le supprimer, sauf que, comme vous voulez ajouter <deb> en début de ligne, il va devenir utile.

rim_enis a écrit :

aussi j'ai fait : ( pour ajouter <deb> au début de chque ligne de mon fichier resultat et <fin> a la fin mais les 2 expressions ne fonctionnent pas !!!!

Code :

$_ =~ s/ +$/ <deb> /g;
$_ =~ s/^\s+/ <fin> /g;

Euh, plutôt que faire ça, imprimez directement <deb> et <fin> en début et fin de chaque ligne. Par contre, ici, il va falloir alors tenir compte de la BOM et de la fin de ligne

Code :

foreach(<$fh> ) {
  unless ($linenum++ or not /^\x{feff}/) {
    s/^\x{feff}// ;
    print $fh1 "\x{feff}"; 
  }
  print $fh1 "<deb>";
  my @words = split /\b/;
  foreach (@words) {
    print $fh1 "<fin>" if (/\n$/);
    print $fh1 $_;
    if ($syn{$_}) {
      print $fh1  " $syn{$_} ";
    }
  }
}

rim_enis a écrit :

et comment je peu inverser l'ordre sachant que j'utilise notepad ???

Aucune idée.
Si vous prenez le corpus et que vous tapez Confirmation après le premier mot, notepad inverse l'ordre des mots dès qu'on tape le C (en tout cas sur ma machine), c'est son interprétation de l'ordre de la ligne (qui contient les mots dans le bon ordre pourtant).
Si vous rajoutez un <debut> en début de ligne, ça change encore ce type d'interprétation (pour mon emacs). Bref, c'est un pb d'interprétation par chaque logiciel de lignes mixtes (ordre droite-gauche et ordre gauche-droite).
Si vous savez taper une phrase mixte comme il faut en sortie, collez la telle quelle ici, que je voie l'ordre interne des mots attendus, et on pourra adapter le code de sortie.
Il faut probablement jongler avec des insertions de Unicode RIGHT-TO-LEFT MARK (my $RLM = "\x{200F}";) et Unicode LEFT-TO-RIGHT MARK (my $LRM = "\x{200E}";).
Après avoir testé, il suffit que je remplace print $fh1 "<deb>"; par print $fh1 "$RLM"; print $fh1 "<deb>"; pour que tout soit OK avec mon emacs.

A+,

Message édité par gilou le 17-04-2013 à 12:16:42

gilou

Modosaurus Rex

Bon, après pas mal de tâtonnements, avec ceci on obtient le bon ordre avec notepad et emacs:

Code :

my $LRM = "\x{200E}"; # Left-Right Mark
my $RLM = "\x{200F}"; # Right-Left Mark
my $LRE = "\x{202A}"; # Left-Right Embedding
my $RLE = "\x{202B}"; # Right-Left Embeding
my $PDF = "\x{202C}"; # Pop Directional Formatting
....
foreach(<$fh> ) {
  unless ($linenum++ or not /^\x{feff}/) {
    s/^\x{feff}// ;
    print $fh1 "\x{feff}";
  }
  print $fh1 "$RLM";
  print $fh1 "$LRE<deb>$PDF$RLM";
  my @words = split /\b/;
  foreach (@words) {
    print $fh1 "$LRE<fin>$PDF$RLM" if (/\n$/);
    print $fh1 $_;
    if ($syn{$_}) {
      print $fh1  "$LRE $syn{$_} $PDF$RLM";
    }
  }
}

print $fh1 "$RLM"; => une marque Right-Left en début de ligne
print $fh1 "$LRE xxx $PDF$RLM"; => un bloc en ordre Left-Right est encadré par $RLE ... $PDF et on rétablit l'ordre avec $RLM (j'aurais pense que le PDF le faisait, mais ça n'a pas l'air d'être le cas, peut être parce qu'il n'y a pas de vrai caractère à direction Right-Left en début de ligne)
A+,

Message édité par gilou le 17-04-2013 à 14:10:06

rim_enis

j'aime ENIS

Bonjour Gilou,
J'ai changé mon système d'exploitation , je travaille maintenant avec ubunto 12.10 , et par defaut il ya la version perl 5.14 , je veux installer la version 5.16.3 , est ce que vous avez une idée comment mettre à jour la version 5.14 , j'ai beaucoup cherché sur net mais j'ai pas reussi à resoudre le pblme.
Merci de me répondre

gilou

Modosaurus Rex

Il faut adapter ce qui est indiqué ici:

http://ubuntuforums.org/showthread.php?t=1860750
http://askubuntu.com/questions/119 [...] stall-perl

Noter qu'avec la version 5.14, vous avez déjà une version de Perl assez efficace à priori.

A+,

Publicité

rim_enis

j'aime ENIS

Merci pour votre réponse ,
je vais voir les liens , avec la version 5.14 mes scripts ne marchent pas

rim_enis

j'aime ENIS

Gilou pouvez vous voir avec moi le problème ,
je veux executer ce script sur ubunto avec la version 5.14 :

Code :

#! /usr/bin/perl
use strict;
use warnings;
use XML::Simple;
use Encode;
use autodie;
use feature 'unicode_strings';
# en entrée, une reference sur un hash %syn et le nom du fichier xml
# en sortie %syn est rempli avec comme clés et les étiquettes comme valeurs.
sub parseBase ($$) {
use XML::Simple;
my $href = shift;
my $data = XMLin(shift);
foreach(@{$data->{mot}}) {
$href->{$_->{'synonyme'}} = $_->{'etiquette'};
}
}
my %syn;
parseBase(\%syn, '/home/hp/Bureau/MesScripts/etiquetageSemantique/BaseEtiquette.xml');
open my $fh, "<:utf8", '/home/hp/Bureau/MesScripts/etiquetageSemantique/in.txt';
open my $fh1, ">:utf8", '/home/hp/Bureau/MesScripts/etiquetageSemantique/resultat.txt';
my $linenum = 0;
foreach(<$fh> ) {
# Si BOM initiale
unless ($linenum++ or not /^\x{feff}/) {
s/^\x{feff}// ;
print $fh1 "\x{feff}";
}
#print $fh1 " <deb> ";
my @words = split /\b/;
foreach (@words)
{
#print $fh1 " <fin> " if (/\n$/);
print $fh1 $_;
# si le mot figure dans la liste des synonymes
if ($syn{$_}) {
print $fh1 " $syn{$_} "; print "\n";
}
}
}
close $fh1;
close $fh;

j'ai deja installer les modules necessaires pour la manipulation des fichier xml , mais il ya l'erreur suivant: [b][b]Not an ARRAY reference at /home/hp/Bureau/MesScripts/etiquetageSemantique/essai.pl line 16.[/b][/b]

gilou

Modosaurus Rex

Remplacez la ligne
$href->{$_->{'synonyme'}} = $_->{'etiquette'};
qui a une syntaxe peut être pas supportée par la version 5.14
par
$$href{$_->{'synonyme'}} = $_->{'etiquette'};
et ça devrait rouler.

A+,

rim_enis

j'aime ENIS

Bonsoir,
j'ai résolu le problème , mais je trouve toujours des problèmes : dans mon fichier xml le poit d'interrogation en arabe possède l'etiquette suivante :
<mot>
<synonyme>؟</synonyme>
<etiquette>Point_Interrogation</etiquette>
</mot>

et le resultat de l'execution est :
أَيْ Confirmation
تْفَضَّلْ Politesse
خُويَا Appelation

مْعَ etq1
وَقْتَاشْ Demande-Horaire
بِاللَهْ Politesse
إِيْ Confirmation
إِيْ Confirmation
التْرَانْ Marq_Train
يِمْشِي etq2
؟

pourquoi ؟ est affiché sans etiquette ???

gilou

Modosaurus Rex

Parce que le split /\b/ fait une scission sur les frontières de mots, et que le ؟ n'est pas considéré comme faisant un mot.
Si vous voulez splitter sur certaines ponctuations, il faudra en tenir compte dans l'expression régulière: split /(\b|\x{061F})/ (061F est le codage unicode de ؟ )

A+,

Message cité 1 fois

rim_enis

j'aime ENIS

Merci infiniment Gilou ,
Alors si je veux splitter sur d'autre ponctuation il suffit de faire : my @words = split /(\b|\x{061F} |\x{060C} )/; ???

gilou

Modosaurus Rex

Tout à fait.

A+,

rim_enis

j'aime ENIS

Gilou , merci beaucoup pour votre aide...

rim_enis

j'aime ENIS

Bonjour gilou,

je serai très reconnaissante si vous pouvez m'aider à resoudre mon problème, en fait j'ai 3 fichier :

out33.txt ( un fichier que pour chaque mot en arabe est associé une etiquette en français ) et qui contient :

بِيَايْ billet
لْتُونِسْ tunis
بْقَدَاهْ combien
؟ Point_Interrogation

آتِيدْيُونْ etudiant
لْتُونِسْ tunis
بْقَدَاهْ combien
؟ Point_Interrogation

un fichier fich2.xml :

<?xml version="1.0" encoding="UTF-8"?>
<liste-des-etiquettes>

<mot>
<synonyme>لْتُونِسْ</synonyme>
<etiquette>tunis</etiquette>
</mot>

<mot>
<synonyme>بِيَايْ</synonyme>
<etiquette>billet</etiquette>
</mot>

<mot>
<synonyme>قَدَّاهْ</synonyme>
<etiquette>combien</etiquette>
</mot>

<mot>
<synonyme>؟</synonyme>
<etiquette>Point_Interrogation</etiquette>
</mot>

</liste-des-etiquettes>

et un fichier fich3.xml

<?xml version="1.0" encoding="UTF-8"?>
<liste-des-classes>

<classe>
<nom>Stations</nom>
<etiquette1>tunis</etiquette1>
<etiquette2>gabess</etiquette2>
<etiquette3>sfax</etiquette3>
</classe>

<classe>
<nom>Type-Voyageurs</nom>
<etiquette1>abonnement</etiquette1>
<etiquette2>etudiant</etiquette2>
</classe>

<classe>
<nom>Tichet</nom>
<etiquette1>billet</etiquette1>
<etiquette2>billets</etiquette2>
</classe>

<classe>
<nom>Demande-destination</nom>
<etiquette1>combien</etiquette1>
</classe>

<classe>
<nom>Ponctuation</nom>
<etiquette1>Point_Exclamation</etiquette1>
<etiquette2>Point</etiquette2>
<etiquette3>Point_Interrogation</etiquette3>
</classe>

</liste-des-classes>

je veux remplacer chaque mot par la classe à quelle elle appartient a partir de l'etiquette par exemple pour l'entré suivant :
بِيَايْ billet
لْتُونِسْ tunis
بْقَدَاهْ combien
؟ Point_Interrogation

آتِيدْيُونْ etudiant
لْتُونِسْ tunis
بْقَدَاهْ combien
؟ Point_Interrogation

le résultat sera :
Tichet + Stations + Demande-destination
Type-Voyageurs + Stations + Demande-destination

pouvez vous m'aider SVP ..
merci de me répondre
très cordialement
rim

gilou

Modosaurus Rex

Bonjour
1) Vous parsez fich2.xml et crééz un hash qui a pour clé un synonyme et pour valeur son étiquette. Appellons ce hash %h1
2) vous parsez fich3.xml et crééz un hash dont les clés sont les étiquettes et les valeurs les noms des classes. Appellons ce hash %h2
3) vous parsez out33.txt et pour chaque mot m en début de ligne, vous imprimez $h2{$h1{mot}}
Bref, c'est tellement basique (contrairement à vos questions précédentes) que je ne vois pas pourquoi vous avez besoin d'aide dans ce cas précis.

Citation :

le résultat sera :
Tichet + Stations + Demande-destination
Type-Voyageurs + Stations + Demande-destination

Non, ce sera
Tichet + Stations + Demande-destination + Ponctuation
Type-Voyageurs + Stations + Demande-destination + Ponctuation
Si vous ne voulez pas de + Ponctuation en sortie, il faudra adapter le code pour en tenir compte
A+,

Message édité par gilou le 25-07-2013 à 17:15:52

rim_enis

j'aime ENIS

Bonsoir
merci pour votre réponse , pour le hash %h2 comment je peux mettre plusieurs valeurs comme clé ??

Message cité 1 fois

rim_enis

j'aime ENIS

l'idée est basique et simple mais parceque je débute avec perl les choses me parait un peu flou en fait j'arrive pas à resoudre le problème

gilou

Modosaurus Rex

rim_enis a écrit :

Bonsoir
merci pour votre réponse , pour le hash %h2 comment je peux mettre plusieurs valeurs comme clé ??

Ce n'est pas ce que j'ai dit.
En parsant
<classe>
<nom>Stations</nom>
<etiquette1>tunis</etiquette1>
<etiquette2>gabess</etiquette2>
<etiquette3>sfax</etiquette3>
</classe>
votre code devra faire
$h2{tunis} = 'Stations';
$h2{gabess} = 'Stations;
$h2{sfax} = 'Stations;
A+,

Message édité par gilou le 26-07-2013 à 12:56:50

rim_enis

j'aime ENIS

dans ce cas à chaque fois j'ajoute des etiquettes ds la base des classes le code sera modifé ???

gilou

Modosaurus Rex

J'ai dit que c'est votre code qui va le faire, bref, il va parser, trouver la valeur associée au tag nom, Stations, ranger ça dans une variable, que l'on pourrait appeller $nom, puis en continuant le parsing, il va trouver la valeur associée au tag étiquette1, tunis, ranger ça dans une variable, que l'on pourrait appeller $etiquette, puis faire $h2{$etiquette} = $nom;
A+,

Message édité par gilou le 26-07-2013 à 15:04:52

rim_enis

j'aime ENIS

Merci
C'est comme vous parlez en chinois pour moi... La mort de ma fillette m'a beaucoup perturbé...
j'ai pas beaucoup travailler sur les tables de hachage.. Bref merci pour tous
A+

gilou

Modosaurus Rex

Spoiler :

>> La mort de ma fillette m'a beaucoup perturbé
Quel malheur! Je vous présente mes sentiments de sincère sympathie.

Bon, j'ai codé ça vite fait, mais ça devrait faire le boulot (faudra peut être le blinder un peu), en tout cas, ça le fait sur un test rapide avec vos exemples.
J'ai du ajouter des entrées à fich2.xml: combien n'a pas la même orthographe dans out33.txt et il manque une entrée pour étudiant.

Code :

#!/usr/bin/env perl
 
use strict;
use warnings;
use autodie;
use XML::TreeBuilder;
 
my %h1;
my $tree = XML::TreeBuilder->new();
$tree->parse_file('fich2.xml');
my @mots = $tree->find('mot');
foreach (@mots) {
  my ($synonyme, $etiquette);
  foreach ($_->descendants()) {
    my $tag = $_->tag();
    if ($tag ~~ "synonyme" ) {
      $synonyme = ($_->content_list())[0];
    }
    if ($tag ~~ "etiquette" ) {
      $etiquette = ($_->content_list())[0];
      $h1{$synonyme} = $etiquette;
    }
  }
}
$tree->delete;
 
my %h2;
$tree = XML::TreeBuilder->new();
$tree->parse_file('fich3.xml');
my @classes = $tree->find('classe');
foreach (@classes) {
  my ($nom, $etiquette);
  foreach ($_->descendants()) {
    my $tag = $_->tag();
    if ($tag ~~ "nom" ) {
      $nom = ($_->content_list())[0];
    }
    if ($tag ~~ /^etiquette\d+$/) {
      $etiquette = ($_->content_list())[0];
      $h2{$etiquette}= $nom;
    }
  }
}
$tree->delete;
 
open my $fh,  "<:utf8", 'out33.txt';
my $linenum = 0;
my (@bloc, @words);
foreach(<$fh> ) {
  unless ($linenum++ or not /^\x{feff}/) {
    s/^\x{feff}// ;
  }
  if (/^\s*$/) {
    if (0+@bloc) {
      print join(" + ", @bloc), "\n";
      @bloc = ();
    }
  }
  else {
    s/^\s+|\s+$//g;
    @words = split /\s+/;
    if (defined($h1{$words[0]}) and defined($h2{$h1{$words[0]}})) {
      push @bloc, $h2{$h1{$words[0]}};
    }
    else {
       push @bloc, "???";
    }
  }
}
if (0+@bloc) {
  print join(" + ", @bloc), "\n";
}
close $fh;

A+,

Message édité par gilou le 26-07-2013 à 18:44:48

rim_enis

j'aime ENIS

quand j'ai essayé le code il y a le problème suivant :
XML or text declaration not at start of entity at line 2, column 0, byte 1 at /usr/lib/perl5/XML/Parser.pm

gilou

Modosaurus Rex

Chez moi,ça marche.

Vous avez bien un perl a jour, et vos 3 fichiers sont bien en UTF-8?
Parce que la, on dirait que fich2.xml ou fich3.xml n'est pas un fichier XML valide.
Moi j'ai copié vos exemples, les ai collé dans notepad, puis les ai sauvé comme UTF-8 et ai changé l'extension txt donnée par notepad en xml.

A+,

Message édité par gilou le 26-07-2013 à 21:33:47

rim_enis

j'aime ENIS

alors pourquoi ça marche pas chez moi , pourtant mes fichiers xml sont valides !!!

gilou

Modosaurus Rex

Ce n'est manifestement pas ce que pense le parser, vu le message

Citation :

XML or text declaration not at start of entity at line 2, column 0, byte 1 at /usr/lib/perl5/XML/Parser.pm

Il y aurait pas une ligne blanche avant le
<?xml version="1.0" encoding="UTF-8"?>
parce que le message laisse supposer que c'est vu en ligne 2 et non pas en ligne 1 (le line 2, column 0, byte 1).
Et d'ailleurs, je viens de tester, en ajoutant une ligne blanche au début de fich2.xml, et j'ai exactement votre message d'erreur (sauf qu'il dit line 2, column 0, byte 2 et non line 2, column 0, byte 1).
Bref, vos fichiers xml ne sont pas valides, malgré ce que vous semblez penser, et c'est ce que détecte le parser XML (qui est très certainement expat, en dll appelée par le code perl)

A+,

Message édité par gilou le 27-07-2013 à 14:32:46

rim_enis

j'aime ENIS

Gilou Merci beaucoup , je vais essayer de comprendre le code merci encore une fois

rim_enis

j'aime ENIS

Gilou pouvez vous svp m'expliquer ceci :

Code :

if (/^\s*$/) {
if (0+@bloc) {
print join(" + ", @bloc), "\n";
@bloc = ();
}
}
else {
s/^\s+|\s+$//g;
@words = split /\s+/;
if (defined($h1{$words[0]}) and defined($h2{$h1{$words[0]}})) {
push @bloc, $h2{$h1{$words[0]}};
}
else {
push @bloc, "???";
}
}
}
if (0+@bloc) {
print join(" + ", @bloc), "\n";
}

gilou

Modosaurus Rex

Vous avez des blocs de lignes séparés par des lignes blanches.
@bloc va servir a accumuler les infos correspondant à un bloc de lignes, et est imprimé quand on rencontre des lignes blanches.

Si ligne vide ou blanche
if (/^\s*$/) {
si @bloc n'est pas vide (0+@bloc est le nb d'éléments de@bloc)
if (0+@bloc) {
On imprime son contenu sur une ligne en séparant par " + "
print join(" + ", @bloc), "\n";
et on vide @bloc
@bloc = ();

sinon
On vire les espaces en début et en fin
s/^\s+|\s+$//g;
On découpe la ligne comme des mots séparés par des espaces
@words = split /\s+/;
si le premier mot, $words[0], a été trouvé avec une étiquette en parsant fich2.xml
if (defined($h1{$words[0]})
et si cette étiquette était dans une classe de fich3.xml
defined($h2{$h1{$words[0]}}))
alors on stocke la classe dans @bloc
push @bloc, $h2{$h1{$words[0]}};
sinon on stocke ??? dans @bloc

Le dernier
if (0+@bloc) {
print join(" + ", @bloc), "\n";
c'est pour imprimer @bloc si il ne l'a pas été en fin de fichier (fichier pas terminé par une ligne vide ou blanche)

A+,

Message édité par gilou le 27-07-2013 à 18:17:45

rim_enis

j'aime ENIS

Bonjour,
Comment je peux tester si je veux pas afficher la classe ponctuation cad au lieu d'avoir : Tichet + Stations + Demande-destination + Ponctuation
je veux: Tichet + Stations + Demande-destination

gilou

Modosaurus Rex

if (defined($h1{$words[0]}) and defined($h2{$h1{$words[0]}})) {
unless ($h2{$h1{$words[0]}} ~~ "Ponctuation" ) {
push @bloc, $h2{$h1{$words[0]}};
}
}

A+,

rim_enis

j'aime ENIS

gilou a écrit :

bonjour gilou
j'ai voulu executer le code suivant :

Code :

#! /usr/bin/perl
use strict;
use warnings;
use XML::Simple;
use Encode;
use autodie;
use feature 'unicode_strings';
# en entrée, une reference sur un hash %syn et le nom du fichier xml
# en sortie %syn est rempli avec comme clés et les étiquettes comme valeurs.
sub parseBase ($$) {
use XML::Simple;
my $href = shift;
my $data = XMLin(shift);
foreach(@{$data->{mot}}) {
# $href->{$_->{'synonyme'}} = $_->{'etiquette'};
$$href{$_->{'synonyme'}} = $_->{'etiquette'};
}
}
my %syn;
parseBase(\%syn, '/home/hp/Bureau/BaseEtiquettes.xml');
open my $fh, "<:utf8", '/home/hp/Bureau/CorpusNettoye.txt';
open my $fh1, ">:utf8", '/home/hp/Bureau/toto.txt';
my $linenum = 0;
foreach(<$fh> ) {
# Si BOM initiale
unless ($linenum++ or not /^\x{feff}/) {
s/^\x{feff}// ;
print $fh1 "\x{feff}";
}
# print $fh1 " <deb> ";
# my @words = split /\b/;
my @words = split /(\b|\x{061F}|\x{061B})/;
foreach (@words)
{
# print $fh1 " <fin> " if (/\n$/);
print $fh1 $_;
# si le mot figure dans la liste des synonymes
if ($syn{$_}) {
print $fh1 " $syn{$_} \n";
}
}
}
close $fh1;
close $fh;

voici un extrait de mon fichier corpusNettoyee.txt :
. أَيْ تْفَضَّلْ خُويَا
مْعَ وَقْتَاشْ بِاللهْ التْرَانْ يِمْشِي ؟
. مَاضِي سَاعَةْ وَ أَرْبْعَةْ
مَا ثَمَّاشْ وَاحِدْ آخِرْ تَوَّةْ ؟
. لاَ هَاكَ هَذَاكَ هُوَ
ثَمَّاشِي وَاحِدْ آخِرْ بَعْدُو ؟
ثَمَّةْ الحْدَاشْ مْتَاعْ اللِيلْ
سَلَامُ عَلَيْكُمْ بِاللهْ تِكَايْ لْتُونِسْ بْقَدَّاهْ ؟
ثْنَاشْ وُ تْسْعَةْ مِيَّةْ
. سَلَامُ عَلَيْكُمْ
. زُوزْ زُوزْ لْتُونِسْ
وَقْتَاشْ يُخْرِجْ هُوَ ؟
. مَاضِي سَاعَةْ وُ رْبُعْ
. أَيْ خُويَا
بِاللهْ تِسْكْرَةْ لْتُونِسْ مَاضِي سَاعَةْ

mon fichier baseetiquette.xml

<?xml version="1.0" encoding="UTF-8"?>
<liste-des-etiquettes>

<mot>
<synonyme>!</synonyme>
<etiquette>Point Exclamation</etiquette>
</mot>

<mot>
<synonyme>.</synonyme>
<etiquette>Point</etiquette>
</mot>

<mot>
<synonyme>؟</synonyme>
<etiquette>Point Interrogation</etiquette>
</mot>

<mot>
<synonyme>أَيْ</synonyme>
<etiquette>confirmation</etiquette>
</mot>

<mot>
<synonyme>تْفَضَّلْ </synonyme>
<etiquette>politesse</etiquette>
</mot>

<mot>
<synonyme>خُويَا </synonyme>
<etiquette>nomination</etiquette>
</mot>

<mot>
<synonyme>مْعَ</synonyme>
<etiquette></etiquette>
</mot>

<mot>
<synonyme>وَقْتَاشْ</synonyme>
<etiquette>outil question demande horaire</etiquette>
</mot>

<mot>
<synonyme>بِاللهْ</synonyme>
<etiquette>demande</etiquette>
</mot>

<mot>
<synonyme>التْرَانْ </synonyme>
<etiquette>marq train</etiquette>
</mot>

<mot>
<synonyme>يِمْشِي </synonyme>
<etiquette>marq depart</etiquette>
</mot>
<mot>
<synonyme>مَاضِي-سَاعَةْ</synonyme>
<etiquette>heure</etiquette>
</mot>

<mot>
<synonyme>وَ </synonyme>
<etiquette>coordination</etiquette>
</mot>

<mot>
<synonyme>أَرْبْعَةْ </synonyme>
<etiquette>nombre</etiquette>
</mot>

<mot>
<synonyme>مَا-ثَمَّاشْ</synonyme>
<etiquette>indisponibilite</etiquette>
</mot>

pkoi le resultat est fausse pourtant le programme devrait etre juste

reultat ====>

. أَيْ confirmation
تْفَضَّلْ خُويَا
مْعَ HASH(0x8ae1048)
وَقْتَاشْ outil question demande horaire
بِاللهْ demande
التْرَانْ يِمْشِي ؟ Point Interrogation

. مَاضِي سَاعَةْ وَ أَرْبْعَةْ
مَا ثَمَّاشْ outil question
وَاحِدْ آخِرْ autre
تَوَّةْ ؟ Point Interrogation

. لاَ هَاكَ HASH(0x8b19c94)

ici je veux savoir pkoi مَاضِي سَاعَةْ وَ أَرْبْعَةْ n'est pas spliter ???

gilou

Modosaurus Rex

Bonjour
C'est splitté dans le code, simplement l'affichage ne fait rien (pas de saut de ligne après) pour les mots qui ne sont pas dans la base.
C'est très simple à modifier si on veut un saut de ligne systématique.

Code :

#! /usr/bin/perl
use strict;
use warnings;
use XML::Simple;
use Encode;
use autodie;
use feature 'unicode_strings';
# en entrée, une reference sur un hash %syn et le nom du fichier xml
# en sortie %syn est rempli avec comme clés et les étiquettes comme valeurs.
sub parseBase ($$) {
use XML::Simple;
my $href = shift;
my $data = XMLin(shift);
foreach (@{$data->{mot}}) {
s/^\s+|\s+$//g;
next if (/^$/);
my $synonyme = $_->{'synonyme'};
next if (ref($synonyme));
$synonyme =~ s/^\s+|\s+$//g;
next if ($synonyme ~~ /^$/);
my $etiquette = $_->{'etiquette'};
next if (ref($etiquette));
$etiquette =~ s/^\s+|\s+$//g;
next if ($etiquette ~~ /^$/);
$$href{$synonyme} = $etiquette;
}
}
my %syn;
parseBase(\%syn, 'BaseEtiquettes.xml');
open my $fh, "<:utf8", 'CorpusNettoye.txt';
open my $fh1, ">:utf8", 'toto.txt';
my $linenum = 0;
foreach (<$fh> ) {
# Si BOM initiale
unless ($linenum++ or not /^\x{feff}/) {
s/^\x{feff}// ;
print $fh1 "\x{feff}";
}
my @words = split /(\b|\x{061F}|\x{061B})/;
foreach (@words) {
s/^\s+|\s+$//g;
next if (/^$/);
next if (/^\r?\n$/); # élimination des mots vides, retours de ligne, etc
print $fh1 $_;
# si le mot figure dans la liste des synonymes
if ($syn{$_}) {
print $fh1 " $syn{$_}";
}
print $fh1 " \n"; # va splitter à l'affichage pour tous les mots non vides qu'ils soient dans la base ou non
}
}
close $fh1;
close $fh;

parseBase a aissi été modifié tant que j'y étais afin de tenir compte dee entrées avec du blanc autour: <synonyme>تْفَضَّلْ </synonyme> et des entrées vides: <etiquette></etiquette>
Avec vos données, j'ai maintenant en sortie:

. Point
أَيْ confirmation
تْفَضَّلْ politesse
خُويَا nomination
مْعَ
وَقْتَاشْ outil question demande horaire
بِاللهْ demande
التْرَانْ marq train
يِمْشِي marq depart
؟ Point Interrogation
. Point
مَاضِي
سَاعَةْ
وَ coordination
أَرْبْعَةْ nombre
مَا
ثَمَّاشْ
وَاحِدْ
آخِرْ
تَوَّةْ
؟ Point Interrogation
. Point
لاَ
هَاكَ
هَذَاكَ
هُوَ
ثَمَّاشِي
وَاحِدْ
آخِرْ
بَعْدُو
؟ Point Interrogation
ثَمَّةْ
الحْدَاشْ
مْتَاعْ
اللِيلْ
سَلَامُ
عَلَيْكُمْ
بِاللهْ demande
تِكَايْ
لْتُونِسْ
بْقَدَّاهْ
؟ Point Interrogation
ثْنَاشْ
وُ
تْسْعَةْ
مِيَّةْ
. Point
سَلَامُ
عَلَيْكُمْ
. Point
زُوزْ
زُوزْ
لْتُونِسْ
وَقْتَاشْ outil question demande horaire
يُخْرِجْ

A vous d'adapter à vos besoins si nécessaire.

A+,

Message cité 2 fois
Message édité par gilou le 09-10-2013 à 16:53:47

rim_enis

j'aime ENIS

gilou a écrit :

Code :

#! /usr/bin/perl
use strict;
use warnings;
use XML::Simple;
use Encode;
use autodie;
use feature 'unicode_strings';
# en entrée, une reference sur un hash %syn et le nom du fichier xml
# en sortie %syn est rempli avec comme clés et les étiquettes comme valeurs.
sub parseBase ($$) {
use XML::Simple;
my $href = shift;
my $data = XMLin(shift);
foreach (@{$data->{mot}}) {
s/^\s+|\s+$//g;
next if (/^$/);
my $synonyme = $_->{'synonyme'};
next if (ref($synonyme));
$synonyme =~ s/^\s+|\s+$//g;
next if ($synonyme ~~ /^$/);
my $etiquette = $_->{'etiquette'};
next if (ref($etiquette));
$etiquette =~ s/^\s+|\s+$//g;
next if ($etiquette ~~ /^$/);
$$href{$synonyme} = $etiquette;
}
}
my %syn;
parseBase(\%syn, 'BaseEtiquettes.xml');
open my $fh, "<:utf8", 'CorpusNettoye.txt';
open my $fh1, ">:utf8", 'toto.txt';
my $linenum = 0;
foreach (<$fh> ) {
# Si BOM initiale
unless ($linenum++ or not /^\x{feff}/) {
s/^\x{feff}// ;
print $fh1 "\x{feff}";
}
my @words = split /(\b|\x{061F}|\x{061B})/;
foreach (@words) {
s/^\s+|\s+$//g;
next if (/^$/);
next if (/^\r?\n$/); # élimination des mots vides, retours de ligne, etc
print $fh1 $_;
# si le mot figure dans la liste des synonymes
if ($syn{$_}) {
print $fh1 " $syn{$_}";
}
print $fh1 " \n"; # va splitter à l'affichage pour tous les mots non vides qu'ils soient dans la base ou non
}
}
close $fh1;
close $fh;

A vous d'adapter à vos besoins si nécessaire.

A+,

Gilou je vous remerci enormement , mais comme je debute encore avec perl j'ai un autre problème avec ce code :

Code :

#!/usr/bin/perl
use strict;
use warnings;
use autodie;
use utf8;
my ($fname1, $fname2) = ('/home/hp/Bureau/ListeMotsComposee.txt','/home/hp/Bureau/CorpusNettoye.txt' );
open(my $fh, $fname1);
my @biwords;
foreach (<$fh> ) {
chomp;
s/^\s+|\s+$//g;
push @biwords, $_;
}
close $fh;
my @tab;
open($fh, $fname2);
foreach (<$fh> ) {
foreach my $r (@biwords) {
my $t = $r =~ s/ /-/r;
if (/$r/) {
s/$r/$t/g;
# print ;
push @tab, $_;
}
}
}
open my $fh1, ">:utf8", '/home/hp/Bureau/titi.txt';
foreach my $elem (@tab)
{
print $fh1 "$elem\n";
}
close $fh;

ListeMotsComposee.txt ====>
مَاضِي سَاعَةْ
مَا ثَمَّاشْ
مْتَاعْ اللِيلْ
مَا نِرْبَحْشْ

seront remplacer dans corpusnettoyee.txt par :

مَاضِي-سَاعَةْ
مَا-ثَمَّاشْ
مْتَاعْ-اللِيلْ
مَا-نِرْبَحْشْ

cependant le resultat n'est pas mme lisable :

resultat ===> .Ø£ÙÙÙØªÙÙÙØ¶ÙÙÙÙØ®ÙÙÙÙØ§

ÙÙØ¹ÙÙÙÙÙØªÙØ§Ø´ÙØ¨ÙØ§ÙÙÙÙØ§ÙØªÙØ±ÙØ§ÙÙÙÙÙÙØ´ÙÙØ

. ÙÙØ§Ø¶ÙÙ-Ø³ÙØ§Ø¹ÙØ©Ù ÙÙ Ø£ÙØ±ÙØ¨ÙØ¹ÙØ©Ù

.ÙÙØ§Ø¶ÙÙ-Ø³ÙØ§Ø¹ÙØ©ÙÙÙØ£ÙØ±ÙØ¨ÙØ¹ÙØ©Ù

ÙÙØ§-Ø«ÙÙÙÙØ§Ø´Ù ÙÙØ§ØÙØ¯Ù Ø¢Ø®ÙØ±Ù ØªÙÙÙÙØ©Ù Ø

ÙÙØ§-Ø«ÙÙÙÙØ§Ø´ÙÙÙØ§ØÙØ¯ÙØ¢Ø®ÙØ±ÙØªÙÙÙÙØ©ÙØ

d'avance merci pour vos eclairssissements

rim_enis

j'aime ENIS

gilou plz hel me !!

Publicité

Page : 1 2

Page Suivante

Page Précédente

Haut de page

FORUM HardWare.fr

Programmation

Perl

perl + comparaison + xml

Sujets relatifs
recherche expert en PERL	comparaison date
[PERL] Subtition	Sockets en Perl
[PERL] Récupérer des données dans un fichier txt	Comparaison avec drawLine ?!
Comparaison et calculs sur deux fichiers à la fois	Help comparaison de deux fichier perl
[Perl - Débutant]Probleme de comparaison de 2 chaines	[Perl] Comment ignorer la casse dans une comparaison ?
Plus de sujets relatifs à : perl + comparaison + xml

Page générée en 0.213 secondes