Gestion doublons sqlloader

Recherche :

Mot : Pseudo : Filtrer
Bas de page
Auteur	Sujet : Gestion doublons sqlloader

nicomes

Bonjour à tous,

Nous souhaitons intégrer n fichiers csv (minimum 2) dans une table Oracle. Pour cela on utilise SqlLoader de cette manière :

Code :Sélectionner tout - Visualiser dans une fenêtre à partsqlldr.exe userid=sj\/sj@serveur control=import.ctl log=import.log direct=trueAucun problème ça fonctionne, mais la table se retrouve avec des doublons et lorsque l'on souhaite ouvrir l'application appelant cette table, on se retrouver avec une erreur "ORA-01502 index or partition of such index is in unusable state".
La table contient une clé primaire constitué de 3 champs.

Nous avons essayé avec SqlLoader en ajoutant les options qui permettent de respecter les contraintes. Ca fonctionne, mais le temps de chargement est long.

Existe t'il une requête permettant de nettoyer la base des doublons et reconstruire les index ?

Merci pour votre aide.
Cordialement,

Publicité

skeye

Charger "à la brute" dans une table temporaire, puis faire un insert des lignes uniques dans la table réelle?

Message cité 1 fois
Message édité par skeye le 04-05-2011 à 10:35:24

---------------
Can't buy what I want because it's free -

nicomes

skeye a écrit :

Charger "à la brute" dans une table temporaire, puis faire un insert des lignes uniques dans la table réelle?

Ca se tente, tu peux me donner la syntaxe ?

Merci

@+ tard

Message cité 1 fois

skeye

nicomes a écrit :

Ca se tente, tu peux me donner la syntaxe ?

Merci

@+ tard

Tu crées une table temporaire à l'image de ta table de prod, tu fais remplir cette nouvelle table au lieu de l'autre dans ton sqlloader, et ensuite c'est un bête insert du style

Code :

INSERT INTO matabledeprod
SELECT DISTINCT *
FROM matabletemporaire

(S'il y a lieu tu fais aussi attention à ne prendre que les lignes de la table temp qui ne sont pas déjà dans l'autre )

Message cité 1 fois

---------------
Can't buy what I want because it's free -

nicomes

skeye a écrit :

Tu crées une table temporaire à l'image de ta table de prod, tu fais remplir cette nouvelle table au lieu de l'autre dans ton sqlloader, et ensuite c'est un bête insert du style

Code :

INSERT INTO matabledeprod
SELECT DISTINCT *
FROM matabletemporaire

(S'il y a lieu tu fais aussi attention à ne prendre que les lignes de la table temp qui ne sont pas déjà dans l'autre )

Ok, merci bien. Nous allons tenter ça. Je te tiens au courant.

@+

couak

quand tu mets l'option "direct=true" tu spécifies de ne pas mettre à jour les indexes : ca permet d'insérer plus rapidement

du coup après ton chargement, tu dois recontruire tes indexes avec "alter index ... rebuild;"

Message cité 1 fois

couak

si tu ne souhaites pas passer par une table temporaire, il faut faire une requête de suppression des doublons avant la reconstruction des indexes

Message cité 1 fois

nicomes

couak a écrit :

On a essayé, mais nous avons eu un message nous indiquant que c'était impossible car la table contenait des des doublons ...

nicomes

couak a écrit :

si tu ne souhaites pas passer par une table temporaire, il faut faire une requête de suppression des doublons avant la reconstruction des indexes

Nous avons essayé une requête de suppression mais ce n'est pas très concluant, peut-être qu'on s'y prend mal. Aurais-tu un exemple s'il te plait ?

Merci à tous, c'est super sympa !

couak

oui, par exemple supprimer les doublons nom/prénom de la table PERSONNE :

Code :

DELETE PERSONNE a
WHERE rowid > (
SELECT min(rowid)
FROM PERSONNE b
WHERE b.nom = a.nom AND
b.prenom = a.prenom
);

Message cité 1 fois

Publicité

skeye

couak a écrit :

oui, par exemple supprimer les doublons nom/prénom de la table PERSONNE :

Code :

DELETE PERSONNE a
WHERE rowid > (
SELECT min(rowid)
FROM PERSONNE b
WHERE b.nom = a.nom AND
b.prenom = a.prenom
);

euh, j'ai un doute sur ta requête, là...tu vas supprimer toutes les lignes dont le rowid est supérieur à celui d'un doublon, non? [:dawao]

Message cité 1 fois

---------------
Can't buy what I want because it's free -

Oliiii

C un win win!
T'as plus de doublons et t'as vachement moins de données a gerer

Sinon un moyen generique et rapide de se debarasser des doublons est de faire un join de la table avec elle meme et virer tout ce qui a un count > 2.
Ca prends 2 table scan.

Si la table est tres grosse il y a moyen de faire la meme chose en petit morceau en construisant une table temporaire avec les ID des doublons et faire un delete top xxx avec un join sur la table temporaire. Faut un index sur l'ID sinon ca prends 2 plombes.

couak

skeye a écrit :

euh, j'ai un doute sur ta requête, là...tu vas supprimer toutes les lignes dont le rowid est supérieur à celui d'un doublon, non? [:dawao]

non non

Message cité 1 fois

skeye

couak a écrit :

non non

Ben....si...?
Ou alors ya un truc que je rate dans ta syntaxe...

Message édité par skeye le 04-05-2011 à 14:18:56

---------------
Can't buy what I want because it's free -

couak

tu n'as qu'à tester...
Pour moi il parcourt toute la table, et supprime chaque ligne dont le rowid est supérieur au plus petit rowid correspondant au couple nom/prenom i.e. parcours de la table et suppression de chaque doublon basé sur nom/prénom

J'ai toujours fait comme cela et ça marche
Je viens de retester sur une base oracle, j'ai pas de soucis

Code :

CREATE TABLE personne (
  nom varchar2(20),
  prenom varchar2(20)
);
 
INSERT INTO personne VALUES ('a', 'a');
INSERT INTO personne VALUES ('a', 'b');
INSERT INTO personne VALUES ('a', 'a');
INSERT INTO personne VALUES ('a', 'b');
INSERT INTO personne VALUES ('a', 'b');
INSERT INTO personne VALUES ('a', 'a');
INSERT INTO personne VALUES ('b', 'a');
INSERT INTO personne VALUES ('b', 'a');
INSERT INTO personne VALUES ('a', 'b');
INSERT INTO personne VALUES ('a', 'a');
INSERT INTO personne VALUES ('a', 'a');
commit;
 
-- affiche les doublons
SELECT a.rowid, a.nom, a.prenom
FROM
  personne a
WHERE
  a.rowid > (SELECT min(rowid) FROM personne b WHERE a.nom=b.nom AND a.prenom=b.prenom)

Message cité 1 fois
Message édité par couak le 04-05-2011 à 16:42:53

skeye

couak a écrit :

tu n'as qu'à tester...

Je viens de tester, effectivement ça fonctionne...je ne comprends toujours pas la logique de la syntaxe, mais c'est pas grave. [:doc petrus]
Chez moi la version compréhensible pour ça c'est :

Code :

DELETE FROM personne
WHERE rowid NOT IN (
SELECT a.rowid
FROM
  personne a
WHERE
  a.rowid = (SELECT min(rowid) FROM personne b WHERE a.nom=b.nom AND a.prenom=b.prenom)
);

[:tinostar]

---------------
Can't buy what I want because it's free -

couak

ca marche aussi mais tu fais 3 accès complet à la table confirmé en regardant le plan d'exécution

skeye

Ah mais j'ai pas dit que c'était plus rapide, j'ai dit que je comprenais pourquoi ça fonctionne. [:joce]

---------------
Can't buy what I want because it's free -

nicomes

Dans tous les cas, moi ça me convient vos requêtes. Nous allons tester ça aujourd'hui ! Un grand merci. Je vous tiens au courant.

Message édité par nicomes le 05-05-2011 à 07:12:14

FORUM HardWare.fr

Programmation

SQL/NoSQL

Gestion doublons sqlloader

Sujets relatifs
Gestion composants informatiques	Gestion de la facturation d'une salle de sport
Supprimer doublons dans un vector	Gestion dynamique d'images sous Android
Eliminer doublons sur base de données	[VBA] Gestion d'une plage de donnée
gestion des erreurs venant de différentes couches	Access et gestion d'accès à une table
Gestion des droits des utilisateurs d'un site	Structure clé , valeur avec ordre et doublons
Plus de sujets relatifs à : Gestion doublons sqlloader

Page générée en 0.110 secondes