Aide:extraire un groupe de données depuis un groupe de fichiers

Recherche :

Mot : Pseudo : Filtrer
Bas de page
Auteur	Sujet : Aide:extraire un groupe de données depuis un groupe de fichiers

scientista

i'll sleep when I'm dead

Bonjour, ceci est mon premier post, alors bonjour a tous

je m'inscrit seulement maintenant parce que j'ai un probleme de progammation en BAT. ( level : newbie, recherche sur internet de script deja ecrite que je bricole)

Je cherche a extraire la meme info (heure), dans une serie de fichiers qui ont le meme nom

Je bosse dans la science et mes données sont toutes données sous la formes d'un dossier (*.RAW), qui contient un ensemble de fichier.

-> dossier " Data"

--> dossier " monexperience01.RAW "
---> fichier " _CHRO001.DAT "
---> fichier " _CHRO002.DAT "
.
.
---> fichier "_HEADER.TXT"

--> dossier " monexperience02.RAW "
---> fichier " _CHRO001.DAT "
---> fichier " _CHRO002.DAT "
.
.
---> fichier "_HEADER.TXT"

chaque fichier " _HEADER.TXT " commence par

$$ Version: 01.00
$$ Acquired Name: 20150206_QC_01
$$ Acquired Date: 06-Feb-2015
$$ Acquired Time: 13:34:44
$$ Job Code: 20150206_HEP
$$ Task Code:
$$ User Name:

Donc, j'essaie de programmer un BAT, qui me fait un outpout "temps.log" ayant dedans une liste de la variable " $$ Acquired Time: " pour chaque fichier " _HEADER.TXT "

en ouvrant le fichier " temps.log " j aimerai voir

"
13:34:44
13:49:46
14:04:42
14:19:48
.
.
.
"

le problem: ca marche pas, ca me renvoie toutes les infos

est ce que quelqu'un peux me corriger??? [:dark_schneider]

vopic mon BAT

@echo off
(
for /f " skip=3 tokens=1,2 delims=" %%a in ('dir *.txt /a:-d /b /s') do (

for /f " usebackq tokens=1,2 delims==" %%a in ("%%a" ) do (
if not defined skip set /p "=%%a,"<nul
if "%%a"=="$$ Acquired Time:" set skip=3
)
echo(
)
)>"temps.txt"

Message édité par scientista le 07-02-2015 à 21:32:44

Publicité

scientista

i'll sleep when I'm dead

hum, j ai trouvé une autre approche, mais ca ne marche que dans un seul dossier.

(ca donne le string complet " $$ Acquired Time: 15:13:10 " mais bon c'est deja mieux que rien)

:hello: est ce que quelqu'un peux m'aider pour modifier ce code pour que ca extrait ce string pour chaque dossier?

Code :

@echo off
setlocal enabledelayedexpansion
set InputFile=_HEADER.TXT
set OutputFile=temps.txt
for /f "skip=3 delims=" %%d in ('type "%InputFile%"') do (set FirstLine=%%d&goto LastLines)
:LastLines
set CsvLine=
for /f "skip=3 tokens=1* delims=:" %%a in ('type "%InputFile%"') do (
call :Trim %%f
)
>>"%OutputFile%" echo %FirstLine%
ECHO del "%InputFile%"
goto :eof
:Trim
set Value=%*
goto :eof

scientista

i'll sleep when I'm dead

Merci Beaucoup Phoenix

J'ai essayé les deux scripts, et aucun des deux ne renvoient de données du tout malheureusement.

je vois que le script ce lance, mais le fichier output ne se crée pas.

Comment veux tu que je le teste?

scientista

i'll sleep when I'm dead

Je bosse dans la science en spectrometry de masse.
J ai un patch qui me permet de recalibrer entre deux echantillions, mais ce process peut prendre plus au moins de temps.
Chaque echantillion a "l'heure" ou il commence dans ce fichier _Header.txt, donc pour pouvoir calculer le "temps moyen" que prend un echantillion je doit extraire manuellement cette heure, les mettre dans excel... ( je fait 96 echantillions par 24 heures, faire tout ca a la main après je suis :pt1cable: )

j'ai bidoullé dans tous les sens ce que tu m'as donné ca marche pas
J'ai essayé une autre approche, en utilisant le vba dans excel, mais la autres probleme: je n'arrive pas a extraire a partir d'un fichier qui a le meme nom situé dans different dossier

J'ai cherhé aussi pour un logiciel qui pourrai me permettre de faire ca, aucun ne me le perme ( avec un logiciel comme textcrawler , tu peux faire que des find and replace, pas moyen de faire n find puis metre ca dans un ouput

gilou

Modosaurus Rex

Pourquoi ne pas faire ça avec un langage de script comme perl ou python?
Ce sont des langages particulièrement adaptés à ce genre de choses.

Code :

#!/usr/bin/perl
use strict;
use warnings;
use autodie;
 
use File::Grep qw(fgrep);
use File::Glob qw(bsd_glob);
 
# deux valeurs arbitraires pour tester a adapter à ses besoins
my $datareg = 'C:/Perl/test/Data/*.RAW/_HEADER.TXT';
my $datalog = 'C:/TMP/log.txt';
 
# la regexp identifiant la ligne dans le fichier
my $pattern = qr("\$\$ Acquired Time: " );
 
my @times;
my @matches = fgrep {/^$pattern/} bsd_glob("$datareg" );
# en sortie @matches est une liste de structures avec le nom du fichier, le nb de ligne matchées dans le fichier 
# et un hash (numéro de ligne, ligne), pour chaque ligne matchée
 
# cuisine pour récupérer les valeurs qui nous intéressent et les ranger dans @times
foreach my $match (@matches) {
  if ($match->{'count'} == 1) {
    $_ = ((values %{$match->{'matches'}})[0]);
    chop;
    s/^$pattern//;
    push @times, $_;
  }
}
 
#écriture de @times dans le fichier de log
open my $fh, '>>', $datalog;
foreach (@times) {
  print $fh $_,"\n";
}
close $fh;

A+,

Message édité par gilou le 12-02-2015 à 04:09:47

---------------
There's more than what can be linked! -- Le capitaine qui ne veut pas obéir à la carte finira par obéir aux récifs. -- Les paroles s'envolent, les APIs REST -- Hacker vaillant rien d'impossible -- (╯°□°)╯︵ ┻━┻

scientista

i'll sleep when I'm dead

Bonsoir Gilou et merci,

je n'ai aucune connaissance en Perl :sweat: , j 'ai donc installé Perl Active.

A la premiere execution de ton code, j'ai eu un message d'erreur, me demandant fgrep.
J'ai donc utilise ppm, et ai installé File-Grep v 0.02(find matches to a pattern in a series of files and related functions).

Second execution du code, le fichier log.tct se crée mais il est vide

j'ai essayé d'installer File-MultineGrep v0.01 (Match multiple line block delimited by a star/stop pattern) (meme si je ne vois pas de stop pattern dans ton code).

Nouvel essaie, fichier log.txt vide.

J ai assayé App-file-Grepper v0.06 (greps file for pattern).
nouvel essaie, fichier log.txt vide .

Pour le glob, j'ai deja d'installé Text-glob v0.09 (match globing patterns against text).

Ne connaissant pas du tout ce language, je n'arrive pas a voir ou ca pourrait buger

J'ai uploader ici le "dossier type" de données que ma machine me sort (en version allege, avec seulement le fichier _Header.TXT).

Peux tu essayer ton script sur ton pc pour voir si ca vien de mon install de Perl?

http://cjoint.com/?0Bmxz4S4758

Merci

gilou

Modosaurus Rex

Bonsoir,
1) Tu as installé Active Perl
2) Avec ppm, tu as installé File-Grep
A priori, tu n'as pas besoin de plus.

J'ai testé le zip et ça marchait pas pour moi non plus (bizarre, hier ça marchait dans mes tests) mais je sais pourquoi.
Remplaces
my $pattern = qr("\$\$ Acquired Time:" );
par
my $pattern = qr(\$\$ Acquired Time: );
donc plus de doubles quotes autour, et ça règle le problème.

Pour savoir comment j'ai débuggé:
J'ai ajouté après le use autodie; une ligne
use Data::Dumper;

et après le my @matches = fgrep {/^$pattern/} bsd_glob("$datareg" );
j'ai ajouté une ligne
print Dumper(@matches)

ce qui m'a donné a l'exécution un écran avec

$VAR1 = {
'count' => 0,
'matches' => {},
'filename' => 'C:/TOF01.PRO/Data/TEST_Pos_s10w2.raw/_HEADER.TXT'
};
$VAR2 = {
'count' => 0,
'matches' => {},
'filename' => 'C:/TOF01.PRO/Data/TEST_Pos_s1w2.raw/_HEADER.TXT'
};
$VAR3 = {
'count' => 0,
'matches' => {},
'filename' => 'C:/TOF01.PRO/Data/TEST_Pos_s1w3.raw/_HEADER.TXT'
};
$VAR4 = {
'count' => 0,
'matches' => {},
'filename' => 'C:/TOF01.PRO/Data/TEST_Pos_s8w5.raw/_HEADER.TXT'
};

filename montre que les fichiers étaient trouvés, mais count a 0 montre que le pattern n'était pas trouvé dans le fichier. J'ai modifié le pattern en réfléchissant un peu et j'ai ensuite obtenu ce qu'il fallait:

$VAR1 = {
'count' => 1,
'matches' => {
'4' => '$$ Acquired Time: 15:30:16
'
},
'filename' => 'C:/TOF01.PRO/Data/TEST_Pos_s10w2.raw/_HEADER.TXT'
};
$VAR2 = {
'count' => 1,
'matches' => {
'4' => '$$ Acquired Time: 15:13:10
'
},
'filename' => 'C:/TOF01.PRO/Data/TEST_Pos_s1w2.raw/_HEADER.TXT'
};
$VAR3 = {
'count' => 1,
'matches' => {
'4' => '$$ Acquired Time: 15:18:51
'
},
'filename' => 'C:/TOF01.PRO/Data/TEST_Pos_s1w3.raw/_HEADER.TXT'
};
$VAR4 = {
'count' => 1,
'matches' => {
'4' => '$$ Acquired Time: 15:24:32
'
},
'filename' => 'C:/TOF01.PRO/Data/TEST_Pos_s8w5.raw/_HEADER.TXT'
};

Tant que j'y suis je t'explique la suite:
On a dans @matches une liste de 4 structures un peu complexe
foreach my $match (@matches) {
...
}
je parcours la liste mon élément courant est représenté par la variable $match
if ($match->{'count'} == 1) {
...
}
match est une référence sur un hash (une liste de (clé, valeur) les clés étant uniques) de clés count, matches et filename.
avec $match->{'count'} j'accède a la valeur du hash pour la clé count
Je filtre pour les éléments ayant cette valeur a 1 (ie le pattern a été trouvé une fois dans le fichier)
$_ = ((values %{$match->{'matches'}})[0]);
maintenant je m'intéresse a la valeur du hash pour la clé matches. La valeur est a nouveau une référence sur un hash, dont les clés sont les numéros des lignes avec le pattern, et les valeurs les contenus desdites lignes.
Je sais qu'il n'y a qu'une ligne, je veux la récupérer, mais je ne connais pas son numéro de ligne.
%{$match->{'matches'}} déréférence la référence a un hash, et est donc le hash lui même
(values %{$match->{'matches'}}) est la liste des valeurs de ce hash
(values %{$match->{'matches'}})[0] est le premier élément de cette liste (et je sais que c'est le seul).
$_ = ((values %{$match->{'matches'}})[0]); copie cet élément (ie le texte de la ligne qui matche le pattern) dans la variable scalaire par défaut $_
chop vire le \n final d'une ligne, comme il est sans argument, il s'applique à la variable scalaire par défaut $_
s/^$pattern//; élimine le pattern en début de ligne de la variable scalaire par défaut $_
$_ contient maintenant le texte de la ligne sans le pattern initial ni le \n final
push @times, $_;
Je range ce texte dans la liste @times.
EDIT: faut aussi changer le open my $fh, '>>', $datalog; par open my $fh, '>', $datalog; (avec >>, c'est en mode append)
A+,

Message édité par gilou le 13-02-2015 à 16:00:03

gilou

Modosaurus Rex

Et une autre version, un peu plus pédagogique:
On fait pratiquement tout soi même ici, plutôt que de le laisser faire par des modules (sauf le parcours récursif de répertoire, qui utilise un module standard).
Comme on n'a pas de structures de données complexes, c'est plus lisible pour un débutant en perl.

Code :

#!/usr/bin/perl
use strict;
use warnings;
use autodie;
use File::Find;
 
# deux valeurs arbitraires pour tester a adapter à ses besoins
my $startdir = 'C:/TOF01.PRO';
my $datalog = "$startdir/log.txt";
 
# la regexp identifiant la ligne dans le fichier
my $pattern = qr(\$\$ Acquired Time:);
my @times;  # cette globale est utilisée dans wanted, et doit être définie avant
 
# on parcourt récursivement les répertoires et 
# on appelle wanted a chaque fichier ou répertoire rencontré
find(\&wanted, "$startdir/Data" );
# après le parcours, écriture des contenus trouvés et rangés dans @times dans le fichier de log
open my $fh, '>', $datalog;
foreach (@times) {
  print $fh $_,"\n";
}
close $fh;
 
 
sub wanted {
  # $_ contient le nom du fichier ou répertoire
  # et le directory de travail est positionné dans celui actuellement parcouru
  # ce qui fait que open marchera avec juste le nom du fichier, sans path
 
  # directory
  if (-d) {
    # process initial directory
    return if (/^\.$/o);  # on pourrait faire if ( $_ eq "." ) mais j'aime mieux les expressions régulières
    # return, car on ne fait pas de traitement spécifique au répertoire lui même
    # mais on parcourt quand même les fichiers et répertoires qu'il contient
    # process .raw directories
    return if (/^.*\.raw$/io);  # /i donc case insensitive, ça marchera aussi avec xxx.RAW
    # skip others directories
    $File::Find::prune = 1;
  }
 
  # files
  if (-f) {
    # skip file unless it is _HEADER.TXT
    return unless (/^_HEADER.TXT$/o);
    # on ouvre le fichier
    open my $fh, "<", $_;
    while (<$fh> ) {
      # on supprime le \n final
      chop;
      # on cherche la ligne
      if (/^$pattern\s+(\d{2}:\d{2}:\d{2})\s*$/o) {
        # on s'est arrangé avec les parenthèses pour mettre le contenu qui nous intéresse dans le 1er groupe, $1
        # on le range dans @times
        push @times, $1;
        # inutile de continuer à lire le fichier
        last;
      }
    }
    close $fh;
  }
  return;
}

A+,

Message édité par gilou le 13-02-2015 à 16:42:49

gilou

Modosaurus Rex

Et encore une version pédagogique qui ne fait appel à aucun module particulier.
Elle suppose juste que les répertoires en .raw sont tous dans le répertoire Data

Code :

#!/usr/bin/perl
use strict;
use warnings;
use autodie;
 
# deux valeurs arbitraires pour tester a adapter à ses besoins
my $startdir = 'C:/TOF01.PRO';
my $datalog = "$startdir/log.txt";
# la regexp identifiant la ligne dans le fichier
my $pattern = qr(\$\$ Acquired Time:);
 
my (@dirs, @files, @times);
opendir(my $dh, "$startdir/Data" );
# On récupère les sous répertoires de Data en .raw
@dirs = grep /.\.raw$/io, readdir($dh);
closedir($dh);
# on y cherche les fichiers en _HEADER.TXT
foreach my $dir (@dirs) {
  opendir(my $dh, "$startdir/Data/$dir" );
  push @files, map {"$startdir/Data/$dir/$_"} grep /^_HEADER.TXT$/o, readdir($dh);
  closedir($dh);
}
# on y cherche les lignes avec le pattern, et si trouvé, 
# on stocke la partie de la ligne en d{2}:\d{2}:\d{2} dans @times s'il y en a une
foreach my $file (@files) {
  open(my $fh, $file);
  push @times, grep defined, map {m/\s(\d{2}:\d{2}:\d{2})\s*$/; $1} grep /^\s*$pattern/, (<$fh> );
  close($fh);
}
# écriture du contenu de  @times dans le fichier de log
open my $fh, '>', $datalog;
foreach (@times) {
  print $fh $_,"\n";
}
close $fh;

Un des principes de perl, c'est qu'il n'y a pas UNE bonne méthode pour faire les choses, mais des méthodes adaptées au niveau de celui qui utilise le script, l'important étant que le script fasse ce qui est voulu.

A+,

scientista

i'll sleep when I'm dead

:bounce: Merci Gilou !!!!!!!!!!! :love:
J 'ai testé le premier script que tu as posté et ca marche !!!!!!

Merci beaucoup pour le temps que tu as passé pour l'ecrire.

Je comprends en lisant les deux autres script qu'effectivement il y a beaucoup de " facon d'ecrire"

Je vais essayer de modifier le3 eme script , pour faire deux recherches sur le meme fichier et separer par un point virgule ( ou un tab), afin de pouvoir utiliser le fichier dans excel.

PERL est mon nouvel ami

Gilou est ce que tu connais un bon site pour apprendre le PERL?
(MERCI ENCORE)

Publicité

gilou

Modosaurus Rex

Pour écrire au directement au format Excel, il y a le module Excel::Writer::XLSX, ou bien Text::CSV si on veut écrire au format csv.

Il y a pas mal de tutoriels perl plus ou moins bon.
Sur cette page: http://qntm.org/files/perl/perl.html se trouve résumé l'essentiel de ce qu'il y a à savoir sur le langage. Et c'est bien mieux fait que sur pas mal de sites.
Cet article http://matt.might.net/articles/perl-by-example/ est bien aussi.

Ensuite, une bonne méthode est de chercher sur le web des exemples proche de ce qu'on veut faire (google "perl ..." et filtrer les retours sur Perl Monks ou StackOverflow), les comprendre et les adapter a son cas.

A+,

FORUM HardWare.fr

Programmation

Shell/Batch

Aide:extraire un groupe de données depuis un groupe de fichiers

Sujets relatifs
[JAVA] Parser un fichier de log sans le locker	Déplacement fichier
Suppression de fichier	ouvrir un fichier texte en java
Traiter un fichier xml	Suppression d'un fichier en lecture seule
Importer valeurs depuis un fichier texte dans des variables VBS	Parser un fichier.txt en PHP
parser un fichier xml	[RESOLU] [POWERSHELL] Modifier des lignes précises sur un fichier
Plus de sujets relatifs à : Aide:extraire un groupe de données depuis un groupe de fichiers

Page générée en 0.209 secondes