[SHELL] probleme recherche sed

Recherche :

Mot : Pseudo : Filtrer
Bas de page
Auteur	Sujet : [SHELL] probleme recherche sed

ppic

bonjour,

ca fait une demi journée que je me casse là tete avec ça:

j'ai un fichier imdb.txt qui contient entre autre ça:

Code :

31 March 1999 (USA)
<a class="tn15more inline" href="/title/tt0147800/releaseinfo" onClick="(new Image()).src='/rg/title-tease/releasedates/images/b.gif?link=/title/tt0147800/releaseinfo';">more</a>
</div>
<div class="info">
<h5>Genre:</h5>
<a href="/Sections/Genres/Comedy/">Comedy</a> | <a href="/Sections/Genres/Romance/">Romance</a> <a class="tn15more inline" href="/title/tt0147800/keywords" onClick="(new Image()).src='/rg/title-tease/keywords/images/b.gif?link=/title/tt0147800/keywords';">more</a>
</div>
<div class="info">
<h5>Tagline:</h5>
How do I loathe thee? Let me count the ways. <a class="tn15more inline" href="/title/tt0147800/taglines" onClick="(new Image()).src='/rg/title-tease/taglines/images/b.gif?link=/title/tt0147800/taglines';">more</a>
</div>
<div class="info">

je souhaite récuperer les genres, j'utilise cette commande:

Code :

sed -n 's/.*\/Sections\/Genres\/.*\/$.*$\/">.*/\1/p' imdb.txt

et a chaque fois il ne me retourne que Romance

je ne vois pas ou j'ai loupé et je lutte avec les expr regulières !

merci à toute aide !

Publicité

Xavier_OM

Monarchiste régicide (fr quoi)

C'est pas vraiment le bon outil sed, ton xml peut avoir des retours à la ligne partout et sed lui bosse ligne par ligne...

Sinon ton problème est simple : .* choppe toujours le maximum de truc, donc dans

Citation :

<a href="/Sections/Genres/Comedy/">Comedy</a> | <a href="/Sections/Genres/Romance/">Romance</a> <a class="tn15more inline" href="/title/tt0147800/keywords" onClick="(new Image()).src='/rg/title-tease/keywords/images/b.gif?link=/title/tt0147800/keywords';">more</a>

le plus grand truc que ton .*\/Sections peut attraper c'est

Citation :

<a href="/Sections/Genres/Comedy/">Comedy</a> | <a href="/Sections

Sinon tu peux utiliser autre chose que '/' comme séparateur (genre s@toto@tutu), ca t'évitera de devoir protéger les / du xml

---------------
I was there Gandalf, I was there 3000 years ago... when the war between vi and emacs was raging.

ppic

ok effctivement c plus clair en changeant de séparateur c'est déjà plus clair

Code :

sed -n 's#.*<a href="/Sections/Genres/$.*$/">.*#\1#p' imdb.txt

par contre je ne vois pas quoi utiliser d'autre que sed pour cela, toute suggestion est bienvenue

est-il possible tout de meme de sortir les 2 résultats avec sed?

ppic

plus précisement, au point ou j'en suis, j'ai un fichier temp qui contient:

Code :

Comedy/">Comedy</a> | <a href="/Sections/Genres/Drama/">Drama</a> | <a href="/Sections/Genres/Romance/">Romance</a>

je cherche a extraire Comedy / Drama / Romance
chacun est en cadré par /"> et </a>, il doit bien exister un moyen

Message édité par ppic le 02-05-2009 à 21:35:57

ppic

j'ai avancé!
j'en suis au remplacement dans le fichier

sed 's/<genre>.*<\/genre>/$genre/' $chemin > test.nfo

le pb, c'est que dans le fichier, il m'ecris $genre au lieu du contenu

et si je fais:

sed 's/<genre>.*<\/genre>/'"$genre"'/' $chemin > test.nfo

j'ai le droit à:
sed: bad format in substitution expression

Xavier_OM

Monarchiste régicide (fr quoi)

Tu peux tout englober avec des " plutôt qu'avec des ', et ton $genre sera substitué par sa valeur

---------------
I was there Gandalf, I was there 3000 years ago... when the war between vi and emacs was raging.

ppic

j'ai essayé:
sed "s/<genre>.*<\/genre>/${genre}/" $chemin

résultat:
sed: -e expression #1, char 27: unknown option to `s'

Message cité 1 fois

Xavier_OM

Monarchiste régicide (fr quoi)

ppic a écrit :

j'ai essayé:
sed "s/<genre>.*<\/genre>/${genre}/" $chemin

résultat:
sed: -e expression #1, char 27: unknown option to `s'

ton $genre contient quoi ?

---------------
I was there Gandalf, I was there 3000 years ago... when the war between vi and emacs was raging.

ppic

ça:
/ / War / History / Action

ça viendrait des / ?

ppic

trouvé!

sed "s@<genre>.*</genre>@$genre@" $chemin

ta question m'a mis la puce a l'oreille !

merci

Message cité 1 fois

Publicité

Xavier_OM

Monarchiste régicide (fr quoi)

ppic a écrit :

trouvé!

sed "s@<genre>.*</genre>@$genre@" $chemin

ta question m'a mis la puce a l'oreille !

merci

et oui si ton truc final ressemble à s/dfe/ere/wfew/rer/wer/er/er/e c'est non valide pour sed

---------------
I was there Gandalf, I was there 3000 years ago... when the war between vi and emacs was raging.

ppic

vi il interprete les /

j'en ai perdu des cheveux la dessus !
dur de se remettre au script des fois

merci a toi !

sputnick

bip...bip...bip...bip...bi...b

J'ai rajouté les headers ( le minimum vital ), car pour moi ce n'est pas du XML mais du HTML.

Code :

<html>
<head></head>
<body>
<a class="tn15more inline" href="/title/tt0147800/releaseinfo" onClick="(new Image()).src='/rg/title-tease/releasedates/images/b.gif?link=/title/tt0147800/releaseinfo';">more</a>
</div>
<div class="info">
<h5>Genre:</h5>
<a href="/Sections/Genres/Comedy/">Comedy</a> | <a href="/Sections/Genres/Romance/">Romance</a> <a class="tn15more inline" href="/title/tt0147800/keywords" onClick="(new Image()).src='/rg/title-tease/keywords/images/b.gif?link=/title/tt0147800/keywords';">more</a>
</div>
<div class="info">
<h5>Tagline:</h5>
How do I loathe thee? Let me count the ways. <a class="tn15more inline" href="/title/tt0147800/taglines" onClick="(new Image()).src='/rg/title-tease/taglines/images/b.gif?link=/title/tt0147800/taglines';">more</a>
</div>
<div class="info">
</body>
</html>

Voici le code :

Code :

mech-dump --links /tmp/l.html | awk -F'/' '/Genres/ {print $4}'

Mais le mieux serais d'apprendre un language de dernière génération comme perl, ruby, python, car pour ce qui est de parser du HTML avec sed, c'est rarement une bonne idée. Ils ont tous des classes/modules qui permettent de faire ça proprement, CF -> http://htmlparsing.icenine.ca/doku.php

ppic

je comprend bien le point de vue, mais c'est une opération a faire une seule fois sur 400 fichier.
j'ai pour le moment trouvé la solution, je ne peux par contre pas testé la tienne, mech-dump n'est pas dispo chez moi (je suis sur un nas synology)

FORUM HardWare.fr

Linux et OS Alternatifs

Codes et scripts

[SHELL] probleme recherche sed

Sujets relatifs
Gros problème avec RAID5	extraire des infos d'une fichier xml (en perl)
auto montage linux dans un domaine active directory	Recherche script Pendule avec aiguille de qualité
Problème configuration micro sous Skype ou Audacity...	[shell script] Mettre des espaces entre les caractères
[SHELL] Script de backup (cron) : Ameliorations ?	postgrey problème de démarrage
problème apt-get ubuntu	Egroupware : Funambol problème de synchro pour les non admin
Plus de sujets relatifs à : [SHELL] probleme recherche sed

Page générée en 0.066 secondes