Bonjour,
Je souhaiterais lire grâce à un programme perso la base de données wikipedia, qui est en bz2, le tout sans passer par un fichier temporaire décompressé (trop gros).
Mon programme utilise donc bzip2 -dc frwiki-pages-meta-history.xml.bz2 afin de lire la sortie standard.
La aucun problème ca fonctionne.
Oui mais voila, il y a tout de meme un probleme : je voudrais de l'ISO-8859-1 et non de l'UTF-8.
Alors je fais :
bzip2 -dc frwiki-pages-meta-history.xml.bz2 | iconv -c --from-code=UTF-8 --to-code=ISO-8859-1 (ou sans le -c) |
et la rien ne sort !
Pourtant, si je fais un test en procédant comme ceci, j'ai ce qu'il faut en sortie :
bzip2 -dc frwiki-pages-meta-history.xml.bz2 > test (puis je kill avec CTRL+C au bout de quelques secondes)
cat test | iconv -c --from-code=UTF-8 --to-code=ISO-8859-1 |
Alors comment se fait-il que iconv associé à cat fonctionne alors que rien ne se passe quand les données proviennent de bzip2 ?
Je vous remercie beaucoup par avance pour vos idées !