Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
1476 connectés 

  FORUM HardWare.fr
  Réseaux grand public / SoHo
  Hébergement

  Comment Google trouve t'il les mots dans les livres?

 


 Mot :   Pseudo :  
 
Bas de page
Auteur Sujet :

Comment Google trouve t'il les mots dans les livres?

n°434834
cooki1977n
podologie-equine-libre.net
Posté le 12-10-2009 à 18:07:55  profilanswer
 

Salut,
 
La question me turlupine...  
 
Avec Google books ont peu chercher un mot ou une expression dans LA bibliothèque.  
 
Les livres apparaissent en fichiers image (scanné) donc comment ils font pour trouver un mot?  
 
Il leur faudrait avoir scanné ET passé toutes les pages a la reconnaissance de caractère...  :sweat:  
 
Si ils l'ont fait, pourquoi se faire hiech à présenter les bouquins en photo (parfois limite lisible) et pas en fichiers pdf par exemple?  
 
 :wahoo:


---------------
>>>>Mon feed<<<< - Le Jour J -
mood
Publicité
Posté le 12-10-2009 à 18:07:55  profilanswer
 

n°434835
Wolfman
Lobo'tomizado
Posté le 12-10-2009 à 18:16:29  profilanswer
 

Ce sujet a été déplacé de la catégorie Windows & Software vers la categorie Réseaux grand public / SoHo par Wolfman

n°434840
ViMx
Modérateur
Posté le 12-10-2009 à 19:56:45  profilanswer
 

Les livres sont effectivement passés à l'OCR pour être indexés de la sorte.
 
Pourquoi ils ne sont pas en PDF ?
 
Ben parce que sinon tu les retrouverais un peu partout sur la toile de façon totalement gratuite & incontrôlée.
 
Avec leur système, ils gardent "un peu" la main sur le contenu qu'ils proposent.

n°434863
cooki1977n
podologie-equine-libre.net
Posté le 12-10-2009 à 21:27:19  profilanswer
 

Suite à ma question, j'en ai téléchargé un (libre de droit, donc) et effectivement ils proposent le fichier complet en PDF.  
 
Cependant, c'est un PDF non OCR... si on veux un mot ou une phrase on doit repasser la page à l'OCR...  
 
bizarre.  
 


---------------
>>>>Mon feed<<<< - Le Jour J -
n°458483
Michel Mer​lin
Posté le 26-04-2010 à 21:15:30  profilanswer
 

Les fautes de l'OCR empêchent la LECTURE, mais pas l'INDEXATION
 
La version scannée JPG, même si pas très propre, est en général lisible. Par contre le passage par l'OCR, sans doute pour un certain temps encore, détériore trop le texte pour la lecture.
 
Autrement dit, les mots altérés par OCR sont, pour encore un certain temps, trop nombreux pour permettre une lecture satisfaisante. Mais ils ne gênent pas trop l'indexation : si un mot est erroné, il sera rare, et viendra loin dans les ranks, donc ne perturbera pas vraiment les résultats de cette indexation.
 
Ce n'est qu'une supposition de ma part, mais j'aurais tendance à y lui donner plus de poids qu'à celle de la protection des droits ("Ben parce que sinon tu les retrouverais un peu partout sur la toile de façon totalement gratuite & incontrôlée" ). À noter que le fait que les PDF fournis soient des images (JPG ou autre) s'explique dans les 2 cas et ne fait donc pas sensiblement pencher pour une hypothèse ou une autre.
 
Versailles, Mon 26 Apr 2010 21:15:30 +0200


---------------
Se méfier des citations, et même des posts originaux : contexte trompeur, bannissement des victimes de lynchages ainsi empêchées de répondre, destructions de posts sélectives et massives mais non-mentionnées, etc.
n°458488
Je@nb
Modérateur
Kindly give dime
Posté le 26-04-2010 à 22:01:13  profilanswer
 

tu vas pas recommencer à upper des topics et à mettre ta signature ringade ...

n°461339
felix158
glop glop
Posté le 17-05-2010 à 10:52:13  profilanswer
 

Lors d'une inscription sur un site internet, vous avez sûrement déjà croisé le système de vérification humaine reCAPTCHA qui permet de lutter contre le spam, en retapant 2 mots écrits dans un formulaire.  
 
Et bien en fait ce système anti-spam, propriété de Google, sert à numériser des livres pour le service Google Books !
Ils sont vraiment ingénieux chez Google :D
 
http://fr.wikipedia.org/wiki/ReCAPTCHA
http://recaptcha.net/learnmore.html
http://recaptcha.net/reCAPTCHA_Science.pdf
http://www.geekmaispastrop.com/200 [...] -francais/


Aller à :
Ajouter une réponse
  FORUM HardWare.fr
  Réseaux grand public / SoHo
  Hébergement

  Comment Google trouve t'il les mots dans les livres?

 

Sujets relatifs
[Tant pis]Google ne marche plusbloquer la page preference de google
{WORDPRESS} problème référencement dans googleGoogle renvoie mon site vers un antivirus chinois ! (pb résolu)
pb cpl qui ne marche que dans la pièce ou se trouve la freeboxGoogle ne fonctionne plus chez moi !!
Synchro google calendar + outlook 2003Problème de connexion sur page google uniquement...
[SYNCHRONISER] Google Documents 
Plus de sujets relatifs à : Comment Google trouve t'il les mots dans les livres?


Copyright © 1997-2022 Hardware.fr SARL (Signaler un contenu illicite / Données personnelles) / Groupe LDLC / Shop HFR