Comment Google trouve t'il les mots dans les livres?

Recherche :

Mot : Pseudo : Filtrer
Bas de page
Auteur	Sujet : Comment Google trouve t'il les mots dans les livres?

cooki1977n

podologie-equine-libre.net

Salut,

La question me turlupine...

Avec Google books ont peu chercher un mot ou une expression dans LA bibliothèque.

Les livres apparaissent en fichiers image (scanné) donc comment ils font pour trouver un mot?

Il leur faudrait avoir scanné ET passé toutes les pages a la reconnaissance de caractère... :sweat:

Si ils l'ont fait, pourquoi se faire hiech à présenter les bouquins en photo (parfois limite lisible) et pas en fichiers pdf par exemple?

:wahoo:

---------------
>>>>Mon feed<<<< - Le Jour J -

Publicité

Wolfman

Lobo'tomizado

Ce sujet a été déplacé de la catégorie Windows & Software vers la categorie Réseaux grand public / SoHo par Wolfman

ViMx

Modérateur

Les livres sont effectivement passés à l'OCR pour être indexés de la sorte.

Pourquoi ils ne sont pas en PDF ?

Ben parce que sinon tu les retrouverais un peu partout sur la toile de façon totalement gratuite & incontrôlée.

Avec leur système, ils gardent "un peu" la main sur le contenu qu'ils proposent.

cooki1977n

podologie-equine-libre.net

Suite à ma question, j'en ai téléchargé un (libre de droit, donc) et effectivement ils proposent le fichier complet en PDF.

Cependant, c'est un PDF non OCR... si on veux un mot ou une phrase on doit repasser la page à l'OCR...

bizarre.

---------------
>>>>Mon feed<<<< - Le Jour J -

Michel Merlin

Les fautes de l'OCR empêchent la LECTURE, mais pas l'INDEXATION

La version scannée JPG, même si pas très propre, est en général lisible. Par contre le passage par l'OCR, sans doute pour un certain temps encore, détériore trop le texte pour la lecture.

Autrement dit, les mots altérés par OCR sont, pour encore un certain temps, trop nombreux pour permettre une lecture satisfaisante. Mais ils ne gênent pas trop l'indexation : si un mot est erroné, il sera rare, et viendra loin dans les ranks, donc ne perturbera pas vraiment les résultats de cette indexation.

Ce n'est qu'une supposition de ma part, mais j'aurais tendance à y lui donner plus de poids qu'à celle de la protection des droits ("Ben parce que sinon tu les retrouverais un peu partout sur la toile de façon totalement gratuite & incontrôlée" ). À noter que le fait que les PDF fournis soient des images (JPG ou autre) s'explique dans les 2 cas et ne fait donc pas sensiblement pencher pour une hypothèse ou une autre.

Versailles, Mon 26 Apr 2010 21:15:30 +0200

---------------
Se méfier des citations, et même des posts originaux : contexte trompeur, bannissement des victimes de lynchages ainsi empêchées de répondre, destructions de posts sélectives et massives mais non-mentionnées, etc.

Je@nb

Modérateur
Kindly give dime

tu vas pas recommencer à upper des topics et à mettre ta signature ringade ...

felix158

glop glop

Lors d'une inscription sur un site internet, vous avez sûrement déjà croisé le système de vérification humaine reCAPTCHA qui permet de lutter contre le spam, en retapant 2 mots écrits dans un formulaire.

Et bien en fait ce système anti-spam, propriété de Google, sert à numériser des livres pour le service Google Books !
Ils sont vraiment ingénieux chez Google

http://fr.wikipedia.org/wiki/ReCAPTCHA
http://recaptcha.net/learnmore.html
http://recaptcha.net/reCAPTCHA_Science.pdf
http://www.geekmaispastrop.com/200 [...] -francais/

FORUM HardWare.fr

Réseaux grand public / SoHo

Hébergement

Comment Google trouve t'il les mots dans les livres?

Sujets relatifs
[Tant pis]Google ne marche plus	bloquer la page preference de google
{WORDPRESS} problème référencement dans google	Google renvoie mon site vers un antivirus chinois ! (pb résolu)
pb cpl qui ne marche que dans la pièce ou se trouve la freebox	Google ne fonctionne plus chez moi !!
Synchro google calendar + outlook 2003	Problème de connexion sur page google uniquement...
[SYNCHRONISER] Google Documents
Plus de sujets relatifs à : Comment Google trouve t'il les mots dans les livres?

Page générée en 0.072 secondes