J'ai rajouté les headers ( le minimum vital ), car pour moi ce n'est pas du XML mais du HTML.
Code :
- <html>
- <head></head>
- <body>
- <a class="tn15more inline" href="/title/tt0147800/releaseinfo" onClick="(new Image()).src='/rg/title-tease/releasedates/images/b.gif?link=/title/tt0147800/releaseinfo';">more</a>
- </div>
- <div class="info">
- <h5>Genre:</h5>
- <a href="/Sections/Genres/Comedy/">Comedy</a> | <a href="/Sections/Genres/Romance/">Romance</a> <a class="tn15more inline" href="/title/tt0147800/keywords" onClick="(new Image()).src='/rg/title-tease/keywords/images/b.gif?link=/title/tt0147800/keywords';">more</a>
- </div>
- <div class="info">
- <h5>Tagline:</h5>
- How do I loathe thee? Let me count the ways. <a class="tn15more inline" href="/title/tt0147800/taglines" onClick="(new Image()).src='/rg/title-tease/taglines/images/b.gif?link=/title/tt0147800/taglines';">more</a>
- </div>
- <div class="info">
- </body>
- </html>
|
Voici le code :
Code :
- mech-dump --links /tmp/l.html | awk -F'/' '/Genres/ {print $4}'
|
Mais le mieux serais d'apprendre un language de dernière génération comme perl, ruby, python, car pour ce qui est de parser du HTML avec sed, c'est rarement une bonne idée. Ils ont tous des classes/modules qui permettent de faire ça proprement, CF -> http://htmlparsing.icenine.ca/doku.php