Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
2690 connectés 

  FORUM HardWare.fr
  Programmation
  Divers

  Choix d'une méthode pour extraire des données web

 


 Mot :   Pseudo :  
 
Bas de page
Auteur Sujet :

Choix d'une méthode pour extraire des données web

n°2147120
serphone
Posté le 26-06-2012 à 09:53:52  profilanswer
 

Bonjour à tous,
 
Mon problème concerne le choix d'une méthode pour récupérer des données sur un autre site web.
L'idée du projet est de réaliser (en gros) un agrégateur de petites annonces immobilières, donc il faut être capable de récupérer les annonces sur des sites immobiliers.
Je vois plusieurs solutions possibles, mais ne sait pas du tout laquelle est la plus intéressante en termes de difficulté, performances, etc..
 
Les solutions que j'envisage sont:
_ soit récupérer les données des annonces sur les sites de manière régulière - effectuer un crawl une fois par jour par exemple - et les stocker dans une bdd interne. Les données étant alors accessibles plus facilement.
_ soit faire une sorte de "méta-moteur" où une recherche sur le site lancerait des requêtes sur chacun des sites immobiliers, et les résultats seraient alors traités à la volée pour les afficher correctement.
_ soit intégrer un flux rss/xml/csv - mis à jour par les sites - et stocker les annonces en dur dans une base de données.
 
Voilà les 3 solutions qui me viennent à l'esprit, j'imagine qu'il doit en exister d'autres, donc je suis ouvert à toute idée ou proposition et bien sûr à tout avis sur ces 3 solutions.
 
Alors.. qu'en pensez-vous ?  
 
Merci d'avance pour vos réponses !

mood
Publicité
Posté le 26-06-2012 à 09:53:52  profilanswer
 

n°2147131
rufo
Pas me confondre avec Lycos!
Posté le 26-06-2012 à 10:27:31  profilanswer
 

Déjà, faudrait voir quelles relations tu envisages avec lesdits sites web. "Pomper" leur contenu est illégal, surtout si c'est à des fins commerciales. Normalement, on conclut un partenariat (gratuit ou payant, ça dépend) avec le site qui va te servir de source. Ensuite, ben c'est souvent via une api ou un web service (soap, rest, xml, json...) que les données sont échangées.


Message édité par rufo le 26-06-2012 à 10:28:21

---------------
Astres, outil de help-desk GPL : http://sourceforge.net/projects/astres, ICARE, gestion de conf : http://sourceforge.net/projects/icare, Outil Planeta Calandreta : https://framalibre.org/content/planeta-calandreta
n°2147133
serphone
Posté le 26-06-2012 à 10:38:37  profilanswer
 

Merci de ta réponse,
oui tu as raison, l'aspect légal est très important ici, il y aura donc des accords avec les sites en question.
Ensuite si le site possède un webservice pour échanger les données c'est parfait, mais si ce n'est pas le cas et qu'ils ne souhaitent pas (ou n'ont pas les moyens de) le mettre en place, quelle solution est la plus intéressante ?
 
 

n°2147137
rufo
Pas me confondre avec Lycos!
Posté le 26-06-2012 à 10:47:10  profilanswer
 

Y'a aussi la possibilité de se connecter en direct à leur BD en lecture seule.
 
Après, ça va être de l'analyse de flux rss ou parsing de page web (mais là, ça va être galère :/ )


---------------
Astres, outil de help-desk GPL : http://sourceforge.net/projects/astres, ICARE, gestion de conf : http://sourceforge.net/projects/icare, Outil Planeta Calandreta : https://framalibre.org/content/planeta-calandreta
n°2147244
scvo0ne
Posté le 26-06-2012 à 23:45:19  profilanswer
 

Pour parser des pages web : surtout pas de regex, mais Xpath
 
Assez simple, dès que tu sais que Firebug ( l'extension firefox ) peut t'afficher des chemins Xpath...

n°2147245
sebi
Posté le 26-06-2012 à 23:54:37  profilanswer
 

Non mais comme dit Rufo soit ils exposent leur APIs soit non, avec tout l'aspect légal qui va avec, l'aspect technique est ici vraiment super anodin ...


---------------
A religious war is like children fighting over who has the strongest imaginary friend.
n°2147261
scvo0ne
Posté le 27-06-2012 à 07:38:12  profilanswer
 

A mon avis t'es jamais rentré dans une agence immo et tu n'a jamais visité de site web d'agence immo.  
 
Quant à l'aspect légal ca m'intéresse (une vraie réponse de juriste), je n'ai jamais signé de contrat avec google, bing, yahoo et surement des tas de comparateurs de prix, pourtant ils affichent (et vivent) de mon contenu ...

n°2147270
rufo
Pas me confondre avec Lycos!
Posté le 27-06-2012 à 09:24:20  profilanswer
 

scvo0ne a écrit :

A mon avis t'es jamais rentré dans une agence immo et tu n'a jamais visité de site web d'agence immo.  
 
Quant à l'aspect légal ca m'intéresse (une vraie réponse de juriste), je n'ai jamais signé de contrat avec google, bing, yahoo et surement des tas de comparateurs de prix, pourtant ils affichent (et vivent) de mon contenu ...


 
Un peu hors-sujet mais c'est justement le combat engagé entre les journaux en ligne et Google (Google News par ex). Mais difficile de comparer une situation entre Google et un petit site web et une situation petit site web - autre petite site web. Dans ce dernier cas, le premier qui se fait piquer son contenu sans accord ira en justice et gagnera sans pb. Dans le premier cas, ça peut se tenter, mais va falloir lutter contre une armée d'avocats, pendant longtemps, c'est pas dit de gagner à la fin et surtout, c'est pas dit que le petit site web soit pas malencontreusement tombé dans le bas à sable ou juste sévèrement dégradé en terme de page rank :/


---------------
Astres, outil de help-desk GPL : http://sourceforge.net/projects/astres, ICARE, gestion de conf : http://sourceforge.net/projects/icare, Outil Planeta Calandreta : https://framalibre.org/content/planeta-calandreta

Aller à :
Ajouter une réponse
  FORUM HardWare.fr
  Programmation
  Divers

  Choix d'une méthode pour extraire des données web

 

Sujets relatifs
Problème de méta donnéesImporter des données d'un autre classeur suivant une date
Effacer les données de la consolequels critères pour choix de SGBD
Help! Extraire données en tableau + publipostagecomment importer Base de données avec extension .frm
[Oracle] Créer une base de données et se connecter avec OEMTransmission de données autre que post et get
Extraire des donnees de X-plane vers simulink avec UDP  
Plus de sujets relatifs à : Choix d'une méthode pour extraire des données web


Copyright © 1997-2022 Hardware.fr SARL (Signaler un contenu illicite / Données personnelles) / Groupe LDLC / Shop HFR