Aide script concaténation intelligente sur deux fichiers

Recherche :

Mot : Pseudo : Filtrer
Bas de page
Auteur	Sujet : Aide script concaténation intelligente sur deux fichiers

lonewolfs

Bonjour à tous,

je fais appel à vous car je n'arrive pas a avoir un script correct qui me permette la concaténation de deux fichiers sur deux champs en 1 temps correct.

J'ai 2 fichiers, l'un de 440 000 lignes et l'autre de 10 000 lignes.

Les lignes ne se correspondent pas d'un fichier à l'autre. Une des lignes peut se retrouver en face de n'importe quelle autre du second fichier du moment ou le code_art et la campagne correspondent.

Il y aura plusieurs correspondance car si les code_art sont uniques, il y a plusieurs campagnes.

je sais que c'est un peu compliqué alors je vais vous redonner un exemple.

Premier fichier ex :

Code :

mag code_art campagne st_juill st_aout st_sept st_oct st_nov st_dec st_janv st_fevr st_mars st_avril st_mai st_juin
206 176 2007 6.00 4.00 5.00 5.00 3.00 5.00 8.00 7.00 6.00 10.00 10.00 10.00
206 176 2008 10.00 6.00 5.00 3.00 9.00 9.00 6.00 7.00 7.00 5.00 8.00 7.00
206 176 2009 5.00 5.00
206 183 2007 6.00 6.00 4.00 7.00 6.00 6.00 8.00 4.00 8.00 6.00 5.00 6.00
206 183 2008 6.00 6.00 6.00 6.00 5.00 5.00 1.00 6.00 6.00 6.00 7.00
206 183 2009 8.00 8.00

ou le premier champs correspond à un code magasin (il y en a environ 80), le deuxième champs correspond au code article et le troisième champs qui indique la campagne.

Le deuxième fichier ex :

Code :

code_art campagne pmaar_juill pmaar_aout pmaar_sept pmaar_oct pmaar_nov pmaar_dec pmaar_janv pmaar_fevr pmaar_mars pmaar_avril pmaar_mai pmaar_juin pmasr_juill pmasr_aout pmasr_sept pmasr_oct pmasr_nov pmasr_dec pmasr_janv pmasr_fevr pmasr_mars pmasr_avril pmasr_mai pmasr_juin
176 2007 2.146 2.146 2.146 2.195 2.195 2.229 2.229 2.229 2.229 2.229 2.229 2.228 2.146 2.146 2.146 2.195 2.195 2.229 2.229 2.229 2.229 2.229 2.229 2.228
176 2008 2.267 2.267 2.267 2.267 2.267 2.267 2.276 2.276 2.276 2.276 2.276 2.276 2.267 2.267 2.267 2.267 2.267 2.267 2.276 2.276 2.276 2.276 2.276 2.276
176 2009 2.229 2.229
183 2007 3.538 3.658 3.658 3.704 3.704 3.574 3.574 3.574 3.574 3.574 3.574 3.574 3.538 3.658 3.658 3.704 3.704 3.574 3.574 3.574 3.574 3.574 3.574 3.574
183 2008 3.574 3.574 3.574 3.574 3.574 3.574 3.606 3.606 3.606 3.606 3.606 3.606 3.574 3.574 3.574 3.574 3.574 3.574 3.606 3.606 3.606 3.606 3.606 3.606
183 2009 3.574 3.574

La les deux premiers champs sont les champs de jointure avec le premier fichier. Il faut savoir que les lignes ne sont pas en face de l'autre fichier en cas de paste. Il faut bien chercher sur les champs de jointure pour les assembler dans un troisième fichier et donc aussi éliminer les champs qui deviennent doublon comme le code_art et la campagne.

Et voici la maquette finale ex :

Code :

mag;code_art;campagne;st_juill;st_aout;st_sept;st_oct;st_nov;st_dec;st_janv;st_fevr;st_mars;st_avril;st_mai;st_juin;pmaar_juill;pmaar_aout;pmaar_sept;pmaar_oct;pmaar_nov;pmaar_dec;pmaar_janv;pmaar_fevr;pmaar_mars;pmaar_avril;pmaar_mai;pmaar_juin;pmasr_juill;pmasr_aout;pmasr_sept;pmasr_oct;pmasr_nov;pmasr_dec;pmasr_janv;pmasr_fevr;pmasr_mars;pmasr_avril;pmasr_mai;pmasr_juin
206;00000176;2007;6.00;4.00;5.00;5.00;3.00;5.00;8.00;7.00;6.00;10.00;10.00;10.00;2.146;2.146;2.146;2.195;2.195;2.229;2.229;2.229;2.229;2.229;2.229;2.228;2.146;2.146;2.146;2.195;2.195;2.229;2.229;2.229;2.229;2.229;2.229;2.228
206;00000176;2008;10.00;6.00;5.00;3.00;9.00;9.00;6.00;7.00;7.00;;;;2.267;2.267;2.267;2.267;2.267;2.267;2.276;2.276;2.276;0;0;0;2.267;2.267;2.267;2.267;2.267;2.267;2.276;2.276;2.276;0;0;0
222;00061607;2007;;;;;2.00;2.00;2.00;2.00;2.00;2.00;2.00;2.00;8.48;8.475;8.476;8.477;8.479;8.479;8.479;8.479;8.479;8.479;8.479;8.479;8.48;8.475;8.476;8.477;8.479;8.479;8.479;8.479;8.479;8.479;8.479;8.479
222;00061607;2008;2.00;2.00;2.00;2.00;2.00;2.00;2.00;1.00;1.00;;;;8.479;8.479;8.479;8.479;8.479;8.479;8.479;8.479;8.479;0;0;0;8.479;8.479;8.479;8.479;8.47

J'ai bien réussi a faire cela en bash mais il me faut plus 48 heures pour réaliser le fichier final et c'est malheureusement impossible comme laps de temps.

J'espère que python pourra faire mieux que cela et que vous voudrez bien m'aider.

Merci d'avance
Lonewolf

ps : pour info, j'ai fais comme cela en bash

# 1: Transformer code_art;campagne en code_art@camapagne, et trier le fichier numeriquement sur le champ 2

Code :

sed -r -e 's/;[[:space:]]*$//' -e 's/^([^;]+);([^;]+);([^;]+);(.*)$/\1;\2@\3;\4/' D_STO2.CSV |sort -n -t ';' -k 2 > fic1.mod

# 1: Transformer code_art;campagne en code_art@camapagne, et trier le fichier numeriquement sur le champ 1

Code :

sed -r 's/^([^;]+);([^;]+);(.*)$/\1@\2;\3/' D_PMA2.CSV |sort -n -t ';' -k 1 > fic2.mod

#3: Joindre les fichiers sur les champ 2 du fichier 1 et 1 du fichier2, remettre le champ mag à la bonne place, et separer le champ code_art@campagne en deux champ distincts

Code :

join -1 2 -2 1 -t ';' fic1.mod fic2.mod | sed -r 's/^(.+)@([^;]+);([^;]+);(.*)$/\3;\1;\2;\4/' > STOCK.CSV

Publicité

pataluc

tu ne crois pas que tu aurais intérêt à mettre tout ca en bdd, dans deux tables, et ensuite à récupérer le résultat via une requête? ca te permettrait de bénéficier de la puissance d'un sgbd...

lonewolfs

Le souci est que j'ai plus de 400 000 lignes a entrer eventuellement dans la table. Ce qui fait environ 40 mo et que je ne peux integrer à la fois que 2mo.

Alors le souci est que je risque de passer plus d'heure à decouper puis integrer mon fichier, tout en sachant que le traitement se ferait tous les mois que d'avoir un script qui reprendrait tout à zero.

Amicalement
Lonewolf

pataluc

ok effectivement si c'est un traitement mensuel... mais je vois pas pourquoi tu pourrais pas charger 40mo en bdd... j'ai testé, en copiant tes 6 lignes d'exemples et en les dupliquant pour arriver à 800000 lignes (ce qui me fais un fichier de 50mo), mysql met 3 seconde seulement à les charger dans une table avec la requete suivante:

Code :

LOAD DATA  INFILE 'd:\\data.csv'
INTO TABLE mag
FIELDS TERMINATED BY ' '
IGNORE 1 LINES

alors je pense qu'il ya moyen... pas sur qu'avec python tu puisse faire aussi bien...

après dsl, mais en python je peux pas t'aider...

Message édité par pataluc le 12-08-2009 à 17:12:28

Sve@r

On te retrouve de partout avec ta jointure... Steph70 !!!

Tu définis un dictionnaire

Code :

dict={}

Tu traites le fichier 1.
Pour chaque ligne du fichier 1, tu extraits ce qui te servira de référence

Code :

fp=open("fichier1", "r" )
for ligne in fp:
ref=<routine d'extraction basée sur du ligne.split()>

Si ref n'est pas dans dict.keys(), ça veut dire que la ligne est nouvelle (pour le dictionnaire). Dans ce cas, tu la positionnes

Code :

if ref not in dict.keys():
dict[ref]=ligne

Si ref est dans dict.keys(), ça veut dire que cette référence a déjà été insérée (théoriquement ça ne devrait jamais arriver mais bon...). Dans ce cas, à toi de gérer le cas...

Code :

else:
...<gestion intelligente>

Fin fichier 1

Code :

fp.close()

Tu traites le fichier 2
Pour chaque ligne du fichier 2, tu extraits ce qui te servira de référence

Code :

fp=open("fichier2", "r" )
for ligne in fp:
ref=<routine d'extraction certainement identique à l'autre>

Si ref est dans dict.keys(), ça veut dire que cette référence a déjà été insérée à partir du fichier 1. Dans ce cas, tu la modifies

Code :

if ref in dict.keys():
dict[ref]=<ajout de la ligne issue du fichier 2>

Si ref n'est pas dans dict.keys(), ça veut dire que la ligne du fichier 2 n'a pas de correspondance dans le fichier 1
Fin fichier 2

Code :

fp.close()

En final, te suffit d'afficher dict.values()

Code :

[print lig for lig in dict.values()]

Maintenant, avec 40Mo de data, peut-être que ça peut quand-même être trop. Dans ce cas, voir soluce pataluc. En plus, Python intègre en interne la bdd SQLite => http://www.jacquet80.eu/blog/post/ [...] 241-sqlite...

Message édité par Sve@r le 13-08-2009 à 19:42:17

---------------
Vous ne pouvez pas apporter la prospérité au pauvre en la retirant au riche.

Taz

bisounours-codeur

c'est peanuts 40meg

Message cité 1 fois

masklinn

í dag viðrar vel til loftárása

Taz a écrit :

c'est peanuts 40meg

Pas si tu bosses avec un Pentium 75 et 64Mo de RAM

---------------
I mean, true, a cancer will probably destroy its host organism. But what about the cells whose mutations allow them to think outside the box by throwing away the limits imposed by overbearing genetic regulations? Isn't that a good thing?

FORUM HardWare.fr

Programmation

Python

Aide script concaténation intelligente sur deux fichiers

Sujets relatifs
[BATCH] script qui lance des executables	[MySQL] Taille des fichiers temporaires d'une requête
Aide pour une Regex	[VB.NET] Lister les sous repertoires et les fichiers d'un repertoire
[Shell/Batch] Renommer des fichiers	aide pour Petit projet
Supprimer un bout de code dans des fichiers	Sélectionner plusieurs fichiers du même dossier
Aide conception MCD et MLD	Lister fichiers sur répertoire racine uniquement
Plus de sujets relatifs à : Aide script concaténation intelligente sur deux fichiers

Page générée en 0.060 secondes