Parser (x)HTML

Recherche :

Mot : Pseudo : Filtrer
Bas de page
Auteur	Sujet : Parser (x)HTML

IrmatDen

Salut,

Je vais pas tarder à avoir besoin d'un parser html pour tenter d'ajouter des fonctions qui manquent cruellement à un embryon d'outils fait en php
Du coup, j'ai commencé à reluquer les parser html pour ruby, mais j'ai l'impression qu'il en existe un certain nombre; parmi lesquels:
> ymHTML (dernier paragraphe)
> Hpricot
> RAA
> ou encore Ruby HTML-to-XML pour après parser le XML résultant? (ça m'a l'air tout de même plus fastidieux comme méthode )

Est-ce que quelqu'un aura déjà utilisé tel ou tel parser? Les pages sont plutôt simples, donc je pense que je n'ai pas besoin d'un parser de folie... Super permissif peut-être. Je ne sais pas à quel point la page est valide par contre... (Faudra que je vérifie lundi ce point).

Publicité

masklinn

í dag viðrar vel til loftárása

Pour faire du screen-scraping, Hpricot est très très bien :jap:

Sinon, il y a également RubyfulSoup, je ne l'ai jamais utilisé mais c'est un port de la lib de screen scraping BeautifulSoup pour Python, dont je suis grand fan

Je pense néamoins que je conseillerais Hpricot, cette lib a vraiment un "feeling" Ruby à l'utilisation

Message édité par masklinn le 16-03-2007 à 23:31:10

---------------
I mean, true, a cancer will probably destroy its host organism. But what about the cells whose mutations allow them to think outside the box by throwing away the limits imposed by overbearing genetic regulations? Isn't that a good thing?

souk

Tourist

+1 sur Hpricot, tres bon [:dawa]

IrmatDen

Merci pour ce pré-tri
Après survol des 2, et vu que je n'ai pas d'habitude sur BeautifulSoup, je vais jouer un peu avec Hpricot en premier. Et à voir l'utilisation, je sens que je vais apprendre des constructions sur Ruby au passage

Merci à vous 2 :jap:

IrmatDen

Bon, j'ai attaqué Hpricot, et cette lib me plaît vraiment pour l'instant (bon, au passage j'ai découvert les XPath, donc y'a ptet pas *que* Hpricot [:god] )

J'ai une petite question perf du coup: pour m'exercer avec cette lib, j'ai voulu faire un semblant de parser de blog qui fait un rss-like. Le blog que je parse (http://labs.trolltech.com/blogs/ si vous voulez le voir directement) a cette archi:

<plein de balises mères>
<div id="post-346" class="post">
<div class="blogHeader">
<div class="blogTitle">
le titre avec le lien..
</div>
<d'autres div...></d'autres div...>
</div>
<div class="blogEntry">
<blablabla le texte du blog séparé par paragraphe (ou pas)...>
</div>
</post x>
</plein de balises mères>

Pour l'instant, je fais la récupération des titres par le xpath qui va direct sur le div blogTitle, et ensuite pour chaque titre, je génére le xpath vers le blogEntry correspondant. Et donc je me demande s'il n'est pas moins coûteux d'avoir un xpath par "post", puis de descendre dans l'arbre en se basant dessus.
Des suggestions?

Edit: lien sur url pas automatique

Message édité par IrmatDen le 17-03-2007 à 20:12:54

masklinn

í dag viðrar vel til loftárása

Tu t'en soucieras si tu as l'impression que ton appli est trop lente, fais donc ce qui te semble donner le code le plus clair

IrmatDen

Bof, c'était du code jetable histoire de voir comment utiliser ce parser, pas plus.

masklinn

í dag viðrar vel til loftárása

Donc tu t'en fous, je répète mon conseil: fais ce qui te semble donner le code le plus clair, compréhensible et facilement maintenable, c'est le plus important

IrmatDen

Oui, oui, je vais y jeter un oeil, sinon, je saurais pas le plus clair des 2, sinon

FORUM HardWare.fr

Programmation

Ruby/Rails

Parser (x)HTML

Sujets relatifs
Parser html cpp	Parser un html et récuperer une valeur
parser un fichier html avec php	Librairie Parser Html
simili parser sur du html avec des regexp	[PHP] Parser du HTML : par où commencer
CDATA contenant des balises HTML à parser	[Xerces ?] Parser du HTML en Java
Comment parser un fichier en ASP et recuperer des tags HTML ?	[PHP] Parser une page html
Plus de sujets relatifs à : Parser (x)HTML

Page générée en 0.064 secondes