Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
2566 connectés 

  FORUM HardWare.fr
  Programmation
  HTML/CSS

  Crawler

 


 Mot :   Pseudo :  
 
Bas de page
Auteur Sujet :

Crawler

n°1772007
kelen45
Posté le 11-08-2008 à 15:54:10  profilanswer
 

Bonjour,
Je réalise actuellement un crawler, et j'ai comme objectif de récupérer les URL externes issues des billets d'une liste de blogs.
J'aimerais savoir si vous aviez une idée pour extraire facilement ces URL.
 
Actuellement, ma méthode consiste à 'filtrer' les URL issues du code source des pages de chaque blogs, car beaucoup de liens externes sont récurrents entre les blogs. J'ai déjà bien sur retirer tous les liens internes aux blogs.
Mais cela n'est pas suffisant pour obtenir une liste 'propre'.
 
Merci d'avance pour votre aide.

mood
Publicité
Posté le 11-08-2008 à 15:54:10  profilanswer
 


Aller à :
Ajouter une réponse
  FORUM HardWare.fr
  Programmation
  HTML/CSS

  Crawler

 

Sujets relatifs
Recherche d'informations dans html + crawler'web crawler' (suite) : quel langage choisir ?
Plus de sujets relatifs à : Crawler


Copyright © 1997-2025 Groupe LDLC (Signaler un contenu illicite / Données personnelles)