Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
3192 connectés 

  FORUM HardWare.fr
  Windows & Software
  Win 8

  Trier des URL

 


 Mot :   Pseudo :  
 
Bas de page
Auteur Sujet :

Trier des URL

n°3128636
tang56
Posté le 29-05-2014 à 17:13:41  profilanswer
 

Salut tout le monde,
 
Je dispose d'un fichier .txt au format UNICODE. Ce fichier contient plus de 1 000 liens URL listés de la manière suivante :
 
Lien 1
Lien 2
Lien 3
 
Lien 5
 
Lien 6
 
Lien 7
Lien 8
 
...
 
 
Il arrive qu'à la fin de chaque URL, un espace sépare un "court commentaire" ce qui amène ce genre de ligne :
 
Lien 10 | Commentaire
 
 
J'aimerais bien savoir s'il existe une méthode pour trier tous ces liens. Car il y a des doublons, et que trier tout çà un par un, çà risque de faire long.
 
D'avance merci :-)

mood
Publicité
Posté le 29-05-2014 à 17:13:41  profilanswer
 

n°3128670
olivthill
Posté le 29-05-2014 à 22:15:11  profilanswer
 

Si vous avez Excel (ou l'équivalent chez Libre Office), vous pouvez l'importer en donnant la barre verticale comme séparateur, et faire un tri, puis exporter le résultat dans un fichier Unicode.
 
Il me semble qu'Excel accepte Unicode, mais il y a plusieurs sortes d'Unicode, soit celui d'Unix souvent codé sur 2 octets, soit les Unicodes codés sur des longueurs variables que sont l'UTF-8, et l'UTF-16.
 
Sinon, il reste la solution de s'écrire un petit programme maison. J'en avais fait un en C pour des fichiers Unicode sur 2 octets, commençant par FF FE. Il fait 504 lignes, commentaires inclus, donc c'est trop long pour donner le code source ici, mais si ça vous intéresse, je vous l'enverrai par mail.


Message édité par olivthill le 29-05-2014 à 22:16:16
n°3129838
tang56
Posté le 08-06-2014 à 20:00:14  profilanswer
 

Merci d'avoir répondu :)
 
Je me retrouve avec un fichier Excel avec plusieurs colonnes.
 
Sachant que les commentaires je m'en fiche, je me concentre que sur la colonne avec plein d'URL.
 
J'ai effectué mon tri, et je vois bien que j'ai des doublons (x2), triplons (x3), parfois 9 ou 10 ! :cry:  
 
Alors c'est vachement fastidieux, car j'ai là, pas loin de 5 000 URL...
 
Y'aurai une commande spéciale à créer pour faire genre :
 
Si ligne X apparaît >1 fois, alors suppression de l'ensemble des copies de la ligne X - 1 (garder celle que je veux)
 
Je ne sais pas si c'est clair, au pire je peux te filer un échantillon de mon tableau :jap:

n°3129846
Profil sup​primé
Posté le 08-06-2014 à 22:26:54  answer
 

Salut,

 

Il existe des commandes linux pour trier des données et supprimer les doublons. Sur Windows tu peux utiliser Cygwin.

 

Essaye avec la commande sort : sort -u fichier_entree.txt >> fichier_sortie.txt

 

Par contre il faut que ton fichier soit en format UNIX. Avec Notepad ++, il faut convertir les sauts de ligne en format UNIX dans le menu édition.

Message cité 1 fois
Message édité par Profil supprimé le 08-06-2014 à 22:33:15
n°3129848
Fork Bomb
Obsédé textuel
Posté le 08-06-2014 à 23:04:00  profilanswer
 


Et ajoutant une pincée de uniq, c’est parfait.


---------------
Décentralisons Internet-Bépo-Troll Bingo - "Pour adoucir le mélange, pressez trois quartiers d’orange !"
n°3129849
freds45
Posté le 08-06-2014 à 23:19:15  profilanswer
 

Fork Bomb a écrit :


Et ajoutant une pincée de uniq, c’est parfait.


:jap:
C'est la solution qui me venait à l'esprit également :jap: !

n°3129960
tang56
Posté le 10-06-2014 à 20:17:54  profilanswer
 

Okay...
 
Bon j'ai un truc en Unicode-8 ou 16 je ne sais plus.
 
Donc la solution en gros, c'est d'installer Cygwin ?
 
C'est une distribution Linux ou un logiciel qui émule un environnement Unix ?
 
Pour info j'suis en W8.1 et pas une superstar en Info :D


Message édité par tang56 le 10-06-2014 à 20:18:11

Aller à :
Ajouter une réponse
  FORUM HardWare.fr
  Windows & Software
  Win 8

  Trier des URL

 

Sujets relatifs
Script d'ouverturede session>acces a une URL, possible ?gestionnaire de téléchargement URL par e-mail
Excel: comparer deux tableurs et trierextraire les URL de mes favoris ?
trier ses filmsComment récupérer tous les URL présents sur un site WEB ?
Lecteur URL pour radioComment trier les fichiers suivant la taille de leur nom ?
Excel trier des données 
Plus de sujets relatifs à : Trier des URL


Copyright © 1997-2025 Groupe LDLC (Signaler un contenu illicite / Données personnelles)