Perl

[PERL] aide script pour alimenter SGBD MySQL

Recherche :

Mot : Pseudo : Filtrer
Bas de page
Auteur	Sujet : [PERL] aide script pour alimenter SGBD MySQL

Sethenssen

Bonjour,

Je débute en Perl et je suis en train de lire des doc pour m'initier. Cependant je désespère et je ne sais pas si j'aurai le courrage de terminer.

Ma problématique est simple, j'ai de multiples fichiers que je dois simplement manipuler, mettre en forme pour alimenter ma base de donnée MySQL.
J'utilise MySQL 5.1, Toad v4.1 & Perl v5.10

Si un dieu vivant du perl passe dans le coin je lui en serais reconnaissant !

Voilà un exemple parmi tant d'autre d'un fichier csv:

Code :

245362;77;77289;INR69907;Feutre;799;20091102232406;;VEL;799;66;24;
243640;77;66017;INT81553;"Cahier";699;20091102232318;;VEL;699;66;24;
236958;77;08;DRT03286;Lit;299;20091102231945;;VEL;299;66;15;
319771;77;79060;INA38898;Stylo;399;20091102231902;;VEL;399;66;3;
319771;77;79060;BTQ38898;Stylo;399;20091102231902;;VEL;399;66;24;
319250;77;13110;INJ40768;Matelas;599;20091102231736;;VEL;599;66;24;
320343;77;21758;PRP31628;Souris;299;20091102231459;;VEL;299;66;24;
331379;77;27209;INT59377;Trousse;299;20091102231319;;VEL;299;66;15;
314147;77;89301;BTQ12922;Ciseau;0;20091102231248;;VEL;0;66;24;
334467;77;26234;TEL38873;Mouchoir;499;20091102231131;;VEL;499;66;24;
241749;77;37732;TEL90191;Effaceur;699;20091102231104;;VEL;699;66;24;

Le résultat souhaité:

Code :

insert into vod_billing values("236958","8","DRT03286","Lit","299","20091102231945","15","DRT" );
insert into vod_billing values("241749","37732","TEL90191","Effaceur","699","20091102231104","24","TEL" );
insert into vod_billing values("243640","66017","INT81553","Cahier","699","20091102232318","24","INT" );
insert into vod_billing values("245362","77289","INR69907","Feutre","799","20091102232406","24","INT" );
insert into vod_billing values("314147","89301","BTQ12922","Ciseau","0","20091102231248","24","BTQ" );
insert into vod_billing values("319250","13110","INJ40768","Matelas","599","20091102231736","24","INT" );
insert into vod_billing values("319771","79060","BTQ38898","Stylo","399","20091102231902","24","BTQ" );
insert into vod_billing values("319771","79060","INA38898","Stylo","399","20091102231902","3","INT" );
insert into vod_billing values("320343","21758","PRP31628","Souris","299","20091102231459","24","PRP" );
insert into vod_billing values("331379","27209","INT59377","Trousse","299","20091102231319","15","INT" );
insert into vod_billing values("334467","26234","TEL38873","Mouchoir","499","20091102231131","24","TEL" );

En français cela donne ça:
1.concaténer tous les fichiers *.csv* d'un répertoire en un seul et même fichier
2.remplacer tous les caractères " par rien (la double quote)
3.Supprimer toutes les lignes en doublons
4.Trier par la première colonne
5.De supprimer toutes les lignes vides
6.Le caractère ; est le délimiteur de colonne alors supprimer la colonne 2,8,9,10 & 11
7.D'ajouter en dernière colonne les 3 premiers caractères de la colonne 3 (TEL, PRP etc...)
8.Sur cette dernière colonne, remplacer tous les INA, INJ & INR par INT
9.Insérer en début de ligne insert into vod_billing values("
10.D'insérer en fin de ligne " );
11.De remplacer le délimiteur ; par ","
12.Renommer le fichier de sorti en .sql

Le but ultime serait d'alimenter directement ma base MySQL avec des lignes crées, mais déjà un tel script serait le nirvana.

Je sais c'est un peu abusé mais sans doute simple pour un developpeur !

Message édité par Sethenssen le 10-11-2009 à 03:05:14

Publicité

couak

y'a une différence entre aider quelqu'un qui débute, et lui filer les scripts tout fait

pour t'aiguiller, je te propose d'aller lire un peu l'aide sur les fonctions open(), split(), close()
Un petit coup de foreach() t'aidera aussi

Ensuite tu postes ton code et on t'aide

gilou

Modosaurus Rex

:hello:
Tout ça c'est très facile en perl, mais quelle serait (un ordre de grandeur) la taille (en nombre de lignes) d'un fichier .csv obtenu par concaténation de ceux figurant dans un répertoire, ceci afin de voir la stratégie la plus adaptée (tout en mémoire ou non) pour supprimer les doublons et faire le tri.
A+,

---------------
There's more than what can be linked! -- Le capitaine qui ne veut pas obéir à la carte finira par obéir aux récifs. -- Les paroles s'envolent, les APIs REST -- Hacker vaillant rien d'impossible -- (╯°□°)╯︵ ┻━┻

gilou

Modosaurus Rex

Citation :

Le bon ordre pour faire cela est:
1. Concaténer tous les fichiers *.csv* d'un répertoire en un seul et même fichier
2. De supprimer toutes les lignes vides
3. Le caractère ; est le délimiteur de colonne alors supprimer la colonne 2,8,9,10 & 11
4. Trier par la première colonne
5. Supprimer toutes les lignes en doublons
6 .Remplacer tous les caractères " par rien (la double quote)
Parce que sinon, on peut avoir des lignes qui ne sont pas doublon avant la suppression de colonnes qui le deviennent ensuite (je ne connais pas exactement la structure des données des lignes, donc c'est supposable) [ou alors l'ordre donné initialement est il important et permet-on des doublons après les suppression de colonnes?]
Supprimer les doublons après tri est optimal: les doublons seront alors successifs, ce qui facilite les choses.
A+,

Message cité 1 fois
Message édité par gilou le 10-11-2009 à 11:39:43

Sethenssen

gilou a écrit :

1. Concaténer tous les fichiers *.csv* d'un répertoire en un seul et même fichier
2. De supprimer toutes les lignes vides
3. Le caractère ; est le délimiteur de colonne alors supprimer la colonne 2,8,9,10 & 11
4. Trier par la première colonne
5. Supprimer toutes les lignes en doublons
6 .Remplacer tous les caractères " par rien (la double quote)
7.D'ajouter en dernière colonne les 3 premiers caractères de la colonne 3 (TEL, PRP etc...)
8.Sur cette dernière colonne, remplacer tous les INA, INJ & INR par INT

Bonjour,
Comme énoncé j'ai donc commencé à faire le script via l'ordre du quote (j'ai rajouté l'étape 7 & 8)

Code :

#!/usr/bin/perl -w
use strict;
use warnings;
 
# ************************************************************
# Global Variables
my $LOCAL_DIR = "/cygdrive/d/_.billing/_.compiler/backup/test/";
my $DEST_DIR = "/cygdrive/d/_.billing/_.compiler/backup/";
my $SEARCH_FILE = "*_billing_*";
my $OUTPUT_FILE = $DEST_DIR . sprintf("RESULT_FILE.SQL" );
my $START_SEP = 'insert into zz_billing values("';
my $SEP = '","';
my $END_SEP = '" );';
 
# ************************************************************
# Script Perl
print "Starting...\n";
print "\n";
# ************************************************************
 
open (OUT,">$OUTPUT_FILE" ) or die "Message : $!\n";
my @RESULT_FILE = <$LOCAL_DIR$SEARCH_FILE>;
foreach my $LINE(@RESULT_FILE)
{
  open IN,"$LINE" or warn "Message : $!\n";
  while(<IN> )
  {
      s/\"//g;
      next if m/^$/;
      my @SPLIT_TAB = split(/;+/);
      push(@SPLIT_TAB,substr($SPLIT_TAB[3],0,3));
      chomp(@SPLIT_TAB);
      if($SPLIT_TAB[11] eq 'INA')
      {
          my $ERASE_COLUMN = pop(@SPLIT_TAB);
          push(@SPLIT_TAB,'INR');
          chomp(@SPLIT_TAB);
      }
      elsif($SPLIT_TAB[11] eq 'INS')
      {
          my $ERASE_COLUMN = pop(@SPLIT_TAB);
          push(@SPLIT_TAB,'INR');
          chomp(@SPLIT_TAB);
      }
      elsif($SPLIT_TAB[11] eq 'INJ')
      {
          my $ERASE_COLUMN = pop(@SPLIT_TAB);
          push(@SPLIT_TAB,'INR');
          chomp(@SPLIT_TAB);
      }
      print OUT "$START_SEP$SPLIT_TAB[0]$SEP$SPLIT_TAB[2]$SEP$SPLIT_TAB[3]$SEP$SPLIT_TAB[4]$SEP$SPLIT_TAB[5]$SEP$SPLIT_TAB[6]$SEP$SPLIT_TAB[10]$SEP$SPLIT_TAB[11]$END_SEP\n";
      #print OUT $_;
  }
}
 
# ************************************************************
# Ending...
print "\n";
print "Ending...\n";
END
# End.
# ************************************************************

J'ai réussi les tâches 1, 2, 6, 7 & 8 et la 3.

Pour la tâche 3 la suppression n'est pas faite car je sélectionne que certaines colonnes, mais cela je pense n'est pas optimisé.

Il ne me reste que la 4 & 5 qui peuvent être faites en même temps peu importe.
Je pense que je dois le faire dans un second temps, dans un autre fichier car le foreach actuel traite ligne par ligne donc il ne peut pas encore faire de tri s'il n'a pas toutes les données.
Mon problème est que je ne sais pas comment récupérer ce que je viens de faire pour le mettre dans un second tableau et commencer par un sort.
Puis après il faudra faire le tri sans doublons mais là je ne sais pas, j'ai tenté avec un tableau de hashage mais sans succès.

Pour répondre aux questions de Gilou:
L'ordre de grandeur est d'environ 30 000 lignes.
Il n'y a pas de restriction de faire la suppression de doublon avant ou après le tri, peu importe.

Merci pour votre aide,
++

Message édité par Sethenssen le 11-11-2009 à 15:48:39

gilou

Modosaurus Rex

Citation :

Pour répondre aux questions de Gilou:
L'ordre de grandeur est d'environ 30 000 lignes.
Il n'y a pas de restriction de faire la suppression de doublon avant ou après le tri, peu importe.

Donc le tri devrait pouvoir se faire en mémoire sans problème.

Bon, Je me suis créé a partir de vos exemples deux fichier .csv et j'ai écrit un petit script qui fait la modification et l'imprime à l'écran, a vous de le comprendre (et/ou poser des questions) et l'adapter a vos besoins (écrire la sortie vers un fichier...)

Code :

#!/usr/bin/perl -w
use strict;
use warnings;
 
use IO::File;
use File::Spec; # Pour la portabilité du script quelque soit le système de fichier
 
my $LOCAL_DIR = File::Spec->canonpath('C:\Perl');  #a adapter a vos besoins
my @in_dir = File::Spec->splitpath($LOCAL_DIR, 1);
pop @in_dir;
 
my $in_dirhandle;
opendir($in_dirhandle, $LOCAL_DIR) or die "Ouverture de $LOCAL_DIR impossible: $!";
my @files = grep { -f }
            map  { File::Spec->catpath(@in_dir, $_) }
            grep { /\.csv$/ }    # a remplacer par votre critère de filtrage, _billing_tvod_
            readdir($in_dirhandle);
closedir($in_dirhandle);
 
my @data;
my $file;
my @fields;
 
foreach (@files) {
    $file = IO::File->new($_, "r" );
    unless (defined $file) { die "Ouverture de $_ impossible: $!"; }
    while (<$file> ) {
        chomp;
        if (/^(:?[^;]*;){12}$/) {  # on ne prend que les lignes bien formées: 12 champs vides ou non, suivis de ;  
                                            # -- a adapter s'il y a des blancs après le dernier ;
            s/"//g;  #" commentaire inutile, ne sert que pour un bug de coloration du code sur le forum
            @fields = split /;/, $_;
            push @fields, substr($fields[3], 0, 3);  
            $fields[12] =~ s/INA|INJ|INR/INT/;
            push @data, "\"".$fields[0]."\",\"".$fields[2]."\",\"".$fields[3]."\",\"".$fields[4]."\",\""
                              .$fields[5]."\",\"".$fields[6]."\",\"".$fields[11]."\",\"".$fields[12]."\"";
        }
    }
    undef($file); #ferme automatiquement le fichier
}
 
 
my %seen = ();
@data = sort grep { ! $seen{ $_ }++ } @data;  #vire les lignes dupliquées et trie alphabétiquement
 foreach (@data) {
     print "insert into vod_billing values(".$_." );\n";
 }

Bon, la ligne @data = sort grep { ! $seen{ $_ }++ } @data; fait un tri lexicographique sur les lignes (uniques)
S'il vous faut impérativement un tri numérique sur les valeurs numériques du premier champ, il faudra utiliser une fonction de tri adaptée.

A+,

Message édité par gilou le 11-11-2009 à 17:18:59

Sethenssen

Bonjour,

C'est vraiment du haut niveau :pt1cable: chapeau :jap:

Cependant j'ai executé le script qui ne sort aucune erreur, mais il n'imprime rien à l'écran.
J'ai adapté mes exemples au votre en créant même un dossier C:\Perl mais cela ne change pas.

J'ai ajouté un print avant la l.43 et il s'affiche, mais pendant le foreach à la l.46 rien ne sort

Est-ce que les modules utilisés ne sont sans doute pas installé dans mon cygwin?

[edit]: j'ai effectué un cpan des 2 modules puis ré exécuté le script mais cela ne m'imprime toujours rien à l'écran.
Pourtant le script ne sort aucune erreur.

Message édité par Sethenssen le 11-11-2009 à 18:11:48

gilou

Modosaurus Rex

Citation :

J'ai adapté mes exemples au votre en créant même un dossier C:\Perl mais cela ne change pas.

Euh, le répertoire la, c'est celui contenant vos données.
Donc a adapter a votre cas.

si vous faites un foreach (@files) {print $_,"\n";} a la ligne 19, ca vous imprime la liste de vos fichiers de donnée? Je soupçonne que la liste est vide au vu de ce que vous avez comme comportement.

Citation :

Est-ce que les modules utilisés ne sont sans doute pas installé dans mon cygwin?

J'utilise le perl 5.10 d'active state, et les modules que j'utilise ici font partie du core, donc doivent être avec toute version.

A+,

Message édité par gilou le 11-11-2009 à 18:52:51

Sethenssen

Exact cela affiche bien mes données sur l'écran.
Cependant rien d'autre n'est affiché et le script ne retourne aucune erreur.

J'utilise également Perl 5.10 via cygwin

Message édité par Sethenssen le 11-11-2009 à 18:54:55

gilou

Modosaurus Rex

Citation :

Exact cela affiche bien mes données sur l'écran.

Le print en ligne 19 affiche les noms des fichiers de donnée, en full path?

Si oui, il va falloir tracer, chez moi, je n'ai aucun pb.

Si vous faites un print $_, "\n"; avant la ligne
s/"//g; #" commentaire inutile, ne sert que pour un bug de coloration du code sur le forum

Ca vous imprime le contenu de vos fichiers de données ou non?
Si non, c'est parce que vos lignes ne sont pas au format /^(:?[^;]*;){12}$/ Il y a peut être des espaces qui posent pb. Essayez alors de remplacer /^(:?[^;]*;){12}$/ par /^(:?[^;]*;){12}\s*$/
Si oui, c'est que le pb est ailleurs, et il faut continuer à tracer.
A+,

Message édité par gilou le 11-11-2009 à 19:13:40

Publicité

Sethenssen

Cela affiche les noms des fichiers de donnée en full path.

Si je mets un print $_, "\n"; avant la ligne 31 cela ne m'affiche rien.

Sans doute un problème avec /^(:?[^;]*;){12}$/
Mais j'avoue que je n'arrive pas à dechiffrer son fonctionnement.

J'ai alors regardé mes données et il est possible d'avoir des espaces à la colonne [4]
C'est à dire qu'à la place de "Stylo" on peut avoir "Stylo Bleu" et du coup un espace.

J'ai alors tenté de modifier mes données en supprimant tout espace dans cette colonne mais cela n'affiche toujours rien.

Donc je ne sais pas où tracer sans savoir ce qu'est censer donner l'expression régulière malheureusement

Message édité par Sethenssen le 11-11-2009 à 19:32:11

gilou

Modosaurus Rex

C'est tout bête: /^(:?[^;]*;){12}$/
On matche une ligne qui contient des caractères différents de ; puis un ; et ceci 12 fois de suite:
[^;] => un caractère distinct de ;
[^;]* => zéro ou des caractères distincts de ;
[^;]*; => zéro ou des caractères distincts de ; suivis d'un ;
([^;]*;){12} => zéro ou des caractères distincts de ; suivis d'un ; 12 fois de suite
(:?[^;]*;){12} pareil, juste une optimisation mémoire
/^(:?[^;]*;){12}$/ Rien avant et rien après sur la ligne (^: début de ligne, $: fin de ligne)
Je me suis basé sur les données que vous avez donné en exemple, ou vos csv sont ainsi constitués
Si vous testez sur des données structurées différement, ca ne sera pas matché, et c'est ce qui doit poser problème ici.

Les espaces n'ont aucune importance dans les champs, mais s'il y en a avant la fin de ligne il faut en tenir compte en rajoutant un \s* avant le $
A+,

Message édité par gilou le 11-11-2009 à 19:45:11

Sethenssen

Merci beaucoup pour votre aide Gilou
Je vais travailler sur ça

FORUM HardWare.fr

Programmation

Perl

[PERL] aide script pour alimenter SGBD MySQL

Sujets relatifs
Intervalle de date, mysql 5	Manipulation basique de fichier texte a l'aide de Perl
Démon mysql qui prend tout le proc	[RESOLU] - Script de copie de dossier en BAT vers plusieurs [...]
MySql Trigger et VBnet	Script de mon bouton de "Validation".
[RESOLU] INSERT Mysql foireux	Envoyer un Fax par script
Besoin d'aide pour script Bash
Plus de sujets relatifs à : [PERL] aide script pour alimenter SGBD MySQL

Page générée en 0.116 secondes