Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
1156 connectés 

  FORUM HardWare.fr
  Programmation
  PHP

  Parsage de forum en ligne :: acceptable ?

 


 Mot :   Pseudo :  
 
Bas de page
Auteur Sujet :

Parsage de forum en ligne :: acceptable ?

n°1343020
lkolrn
<comment ça marche?>
Posté le 10-04-2006 à 13:55:14  profilanswer
 

'jour tlm
 
vala je veux extraire des données d'un forum pour les passer dans ma moulinette (rien de sale je vous rassure :o)
 
Je parcours donc le forum en question, en 2 étapes :
- je récup la liste triée des utilisateurs enregistrés (1 page appelée pour 50 utilisateurs) dans un premier fichier
- après avoir extrait les ID du fichier, je récup la page d'identité de chaque utilisateur listé (1 page appelée par utilisateur) dans un second fichier
 
Le problème c'est que les ID montent à 150.000 et des... :whistle:  
Ya moins de comptes que ça mais quand même, en gros ça fait que :
- je dois appeler 1.800+ pages pour l'étape 1 (donne un premier fichier ~ 56 Ko)
- un peu plus de 90.000 pour la 2 (le second ~ 170 Ko)
 
Ya po grand-chose de téléchargé/uploadé, mais ça fait quand même po mal d'appels au serveur... nan ? :sweat:
 
 
PS: Je précise que ya rien d'illégal là-dedans, c'est juste de la lecture d'infos accessibles par tous (sans même être enregistré sur le forum) et dont le contenu est relatif à un jeu en ligne (c po du vol d'@ mail en gros [:banguy]).
 
MERCI D'AVANCE pour les conseils/retours d'xp :jap:

mood
Publicité
Posté le 10-04-2006 à 13:55:14  profilanswer
 

n°1343027
Sebastien
Posté le 10-04-2006 à 14:03:36  profilanswer
 

A ouais sans acces directement à la base et au serveur ca peut faire un peu mal, mais rien de mechant, essaye de lancer ta procedure le matin ou la nuit et de pas la lancer 20x de suite, mais sinon non c'est pas trop genant

n°1343075
omega2
Posté le 10-04-2006 à 14:52:10  profilanswer
 

Vu la quantité de donnée que tu récupéres, vérifie d'abord si le webmaster est d'accord pour t'autoriser à copier tout ça, par ce que là, c'est quand même vraiment limite comme façon de faire et personellement, ca me ferait vraiment chier qu'un inconu (ou même quelqu'un que je conais) fasse ça sur un de mes sites sans mon autorisation.
En fait, je me demande même si je n'irais pas prévenir imédiatement le FAI de celui qui pompe chez moi afin qu'ils l'empéchent de recommencer.
 
PS : Même si une info est gratuitement "accessible pour tous", ca ne veut pas dire pour autant qu'elle est librement copiable. ;)
 
PS2 : 90 000 pages pour 170 ko, tu veux dire par là que tu récupéres des pages qui font en moyenne 1.88 octets html compris? :o Rien qu'avec le pseudo, ca ferait bien plus, alors avec en plus l'html et les autres éléments classiques d'un compte, je te dis pas la quantité de données qui vont transiter sur le réseaux. Ca montera surement à plusieurs disaines ou centaines de Mo si ce n'est encore plus. Le webmaster qu'est en face, il va surement pas aimer que tu fasses ça comme ça.


Message édité par omega2 le 10-04-2006 à 14:57:06
n°1343130
lkolrn
<comment ça marche?>
Posté le 10-04-2006 à 15:33:42  profilanswer
 

ouais, j'ai oublié de préciser que mes tailles de fichiers valent pour 50 utilisateurs seulement :whistle:  
 
Faut encore les multiplier par 1800+ après :sweat:  
 
 
C'est justement pour ça que j'ai posté, mon test s'est limité à 1 page de 50 utilisateurs listés,
et ça se sent bien que ça s'ra po évident pour 90.000 ...
 
En plus je suis bien d'accord que c'est pas acceptable tel quel, jpense pas qu'on ait le droit de bouffer du temps serveur et dla bande passante comme ça...
 
Comment qu'ils font les bots ? :o


Message édité par lkolrn le 10-04-2006 à 15:35:14
n°1343214
Sebastien
Posté le 10-04-2006 à 16:16:41  profilanswer
 

ben ils se genent pas.
j'avais fait un truc du genre pour recuperer quelques 20.000 mails  
un petit script qui en prenait une centaine par heure, et en une semaine en gros c'etait reglé sans que ca soit trop lourd pour le site [enfin c'était yahoogroupes ils ont les moyens eux :o]


Aller à :
Ajouter une réponse
  FORUM HardWare.fr
  Programmation
  PHP

  Parsage de forum en ligne :: acceptable ?

 

Sujets relatifs
Forum phpbb[java3D] choisir l'epaisseur d'une ligne
Un nouveau membre pour mon forum!!! problemeBatch windows - Supprimer/modifier une ligne d'un fichier
filet qui va pas au bout de la ligne sur FF et ses copinesApparition de contenu sur mon forum
Lier un forum et un site[reglé]sauter une ligne lors de la generation pdf
[VBA][Excel][Resolu]Connaitre le nombre de ligne d'une colonne- TinyMCE > Fonctionne en localhost pas en ligne
Plus de sujets relatifs à : Parsage de forum en ligne :: acceptable ?


Copyright © 1997-2022 Hardware.fr SARL (Signaler un contenu illicite / Données personnelles) / Groupe LDLC / Shop HFR