Bon, j'ai attaqué Hpricot, et cette lib me plaît vraiment pour l'instant (bon, au passage j'ai découvert les XPath, donc y'a ptet pas *que* Hpricot )
J'ai une petite question perf du coup: pour m'exercer avec cette lib, j'ai voulu faire un semblant de parser de blog qui fait un rss-like. Le blog que je parse (http://labs.trolltech.com/blogs/ si vous voulez le voir directement) a cette archi:
<plein de balises mères> <div id="post-346" class="post"> <div class="blogHeader"> <div class="blogTitle"> le titre avec le lien.. </div> <d'autres div...></d'autres div...> </div> <div class="blogEntry"> <blablabla le texte du blog séparé par paragraphe (ou pas)...> </div> </post x> </plein de balises mères> |
Pour l'instant, je fais la récupération des titres par le xpath qui va direct sur le div blogTitle, et ensuite pour chaque titre, je génére le xpath vers le blogEntry correspondant. Et donc je me demande s'il n'est pas moins coûteux d'avoir un xpath par "post", puis de descendre dans l'arbre en se basant dessus.
Des suggestions?
Edit: lien sur url pas automatique
Message édité par IrmatDen le 17-03-2007 à 20:12:54