Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
2997 connectés 

  FORUM HardWare.fr
  Programmation
  SQL/NoSQL

  moteur de recherche -> indexation des données !!!

 


 Mot :   Pseudo :  
 
Bas de page
Auteur Sujet :

moteur de recherche -> indexation des données !!!

n°1370369
100top
Posté le 19-05-2006 à 10:55:25  profilanswer
 

Bonjours à tous,
J'ai une petite série de question !!!!!
le but est de faire un moteur de recherche assez important (bien sur pas un géant mais un moyen)
il aurait au moins un serveur dédié !!
 
Voila j'ai fait un parseur Html et css etc...
maintenant j'arrive a avoir assez de données pour me lancer dans l'indexation :
J'ai le contenu de la page (cache)
je retrouve les morceaux de phrases et son nombre d'occurence
idem pour tous les mots  
 
je sais quand le texte est en gras et quand il l'est pas  
l'ensemble des liens ( en local ) qu'il y a dans la page !
 
 
je peux tout sortir maintenant et je voulais savoir comment faire pour le mettre dans une base de données !
 
J'ai choisi Mysql 5.0 ( je travail dessus depuis toujours)
 
Mes questions :
 
Pour faire une requete le plus rapidement possible comment faut t-il faire ?  
 
est ce qu'il vaut mieux faire plusieurs tables ? plusieurs base de données ?
 
pour la structure des tables je pensais faire :
 

Code :
  1. table mot
  2. id_du_site  // int(11)
  3. mot_phrases // text  
  4. nb_occurence_du_mot // int(5)


 
 le problémé c'est que j'ai l'impression que je vais avoir des millions d'enregistrement dans cette table car pour un seul site je peux avoir des centaines de mots facilement  
faut il faire plusieurs table ( en les classant par ordre alphabétique ? ) et faire une nouvelle table uniquement pour les morceaux de phrases !?
 
 
 

Code :
  1. table cache
  2. id_du_site  // int(11)
  3. cache_sans_balise // text  
  4. poids_page // int(5)un


 
est ce la méthode la plus rapide pour faire des recherches par la suite ?
avez vous des conseils ou des articles intéressant qui en parlent ?
 
Encore merci
 
N'hésitez pas a laisser tout vos commentaires

mood
Publicité
Posté le 19-05-2006 à 10:55:25  profilanswer
 

n°1370380
moonboot
Posté le 19-05-2006 à 11:11:21  profilanswer
 

J'ai parlé récemment avec une personne experte en moteur de recherche et pour la partie stockage des résultats de l'indexation, il m'a dit que généralement ils n'utilisaient pas de base de données mais un système de fichiers spécifiques.
Il m'a expliqué que 90% des accès étaient en lecture et que les bases de données n'étaient ce qui étaient des plus performantes pour cela (d'où le protocole LDAP par ailleurs).
Par contre je n'ai aucune idée de ce qu'ils peuvent utiliser à la place.
 

n°1370476
100top
Posté le 19-05-2006 à 12:37:46  profilanswer
 

moonboot a écrit :

J'ai parlé récemment avec une personne experte en moteur de recherche et pour la partie stockage des résultats de l'indexation, il m'a dit que généralement ils n'utilisaient pas de base de données mais un système de fichiers spécifiques.
Il m'a expliqué que 90% des accès étaient en lecture et que les bases de données n'étaient ce qui étaient des plus performantes pour cela (d'où le protocole LDAP par ailleurs).
Par contre je n'ai aucune idée de ce qu'ils peuvent utiliser à la place.


 
je ne connais pas du tout le procédé LDAP et cela me semble un peu compliqué a mettre en oeuvre !
je pense qu'une bonne bdd mysql bien faite permettrait d'obtenir ce que je veux ( puissant mais pas une "usine a gaz" dixit LDAP )
c'est pour cette structure que je tourne vers d'eventuelle idée ...
 
Question :  
 
Pour faire des requetes il vaut mieux tout mettre dans une table ou faire plusieurs table ? une base ou plusieurs bases ??
 

n°1370505
moonboot
Posté le 19-05-2006 à 13:29:56  profilanswer
 

je parlais du protocole LDAP pour exemple pour la non utilisation d'une base de données dans le cas d'un ratio en lecture très élevé.
Tu n'as absolument pas besoin d'un LDAP pour ton cas.

n°1370566
100top
Posté le 19-05-2006 à 14:25:50  profilanswer
 

moonboot a écrit :

je parlais du protocole LDAP pour exemple pour la non utilisation d'une base de données dans le cas d'un ratio en lecture très élevé.
Tu n'as absolument pas besoin d'un LDAP pour ton cas.


 
 
ok désolé ;)
 
sinon pour ma question !


Aller à :
Ajouter une réponse
  FORUM HardWare.fr
  Programmation
  SQL/NoSQL

  moteur de recherche -> indexation des données !!!

 

Sujets relatifs
Séparer les données d'une variable[MySQL] Importer des données venant d'un fichier texte.
recherche multicritères multitablespb de recherche sur ListView
Copier les données d'un fichier vers un autre fichiercreer moteur de recherche
[résolu]mysql clé étrangère dans une autre base de données[SQL SERVER] Copie de donnees d'une base a une autre
Problème de récupération de données 
Plus de sujets relatifs à : moteur de recherche -> indexation des données !!!


Copyright © 1997-2022 Hardware.fr SARL (Signaler un contenu illicite / Données personnelles) / Groupe LDLC / Shop HFR