Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
1342 connectés 

  FORUM HardWare.fr
  Programmation
  PHP

  Désactiver les sessions pour les Search Engine crawlers

 


 Mot :   Pseudo :  
 
Bas de page
Auteur Sujet :

Désactiver les sessions pour les Search Engine crawlers

n°1074298
ruellanl
Posté le 06-05-2005 à 19:02:55  profilanswer
 

Bonjour,
 
Je souhaite désactiver les sessions de mon site lorsqu'il est parcouru par un spider de search engine tel que googlebot.
En faisant des recherches, j'ai trouvé une technique qui consiste a ajouter ce code pour initialiser (ou non) mes sessions:
 
if (preg_match("/Mozilla/i", $_SERVER['HTTP_USER_AGENT']))
{ session_start() ;
}
 
Qu'en pensez vous ?
 
Merci pour vos conseils.

mood
Publicité
Posté le 06-05-2005 à 19:02:55  profilanswer
 

n°1074302
FlorentG
Unité de Masse
Posté le 06-05-2005 à 19:05:31  profilanswer
 

Tout ce qui touche à de la détection de User-Agent dans ce cas est purement merdique :/ Rien n'empêche un moteur de rajouter la chaîne mozilla dans son http-user-agent [:pingouino]

n°1074303
FlorentG
Unité de Masse
Posté le 06-05-2005 à 19:06:54  profilanswer
 

Et inversement, des Browsers qui n'ont pas "Mozilla" dedans...

n°1074304
FlorentG
Unité de Masse
Posté le 06-05-2005 à 19:08:57  profilanswer
 

Genre tu prend Lynx, y'a pas Mozilla dedans :/

n°1074312
esox_ch
Posté le 06-05-2005 à 19:25:34  profilanswer
 

Bein le spider de google est basé lynx d'ailleurs non?


---------------
Si la vérité est découverte par quelqu'un d'autre,elle perd toujours un peu d'attrait
n°1074314
sircam
I Like Trains
Posté le 06-05-2005 à 19:28:58  profilanswer
 

Plus les petits comiques qui s'amusent à modifier le user-agent qu'ils transmettent (via firewall). Tu me diras, y zont qu'à pas faire ça [:itm]


---------------
Now Playing: {SYNTAX ERROR AT LINE 1210}
n°1074323
esox_ch
Posté le 06-05-2005 à 19:41:18  profilanswer
 

Uè mè saLfè g3av, m0a sUr mA sId jfè c30i3 o k3uF k3 jsUi s0u n3tScaP 0.0.1a, saLfè A d0nF!


Message édité par esox_ch le 06-05-2005 à 19:42:07

---------------
Si la vérité est découverte par quelqu'un d'autre,elle perd toujours un peu d'attrait
n°1074339
sircam
I Like Trains
Posté le 06-05-2005 à 20:07:44  profilanswer
 

esox_ch a écrit :

Uè mè saLfè g3av, m0a sUr mA sId jfè c30i3 o k3uF k3 jsUi s0u n3tScaP 0.0.1a, saLfè A d0nF!


Moi je fais croire que je suis sous Linux, pour faire partie de l'e1EEte, alors qu'en réalité, je suis sous Windows et que je tchate sur M$N. [:klem3i1]


---------------
Now Playing: {SYNTAX ERROR AT LINE 1210}
n°1074348
ruellanl
Posté le 06-05-2005 à 20:24:29  profilanswer
 

L'idee est de ne pas demarrer la session sur le site lorsqu'il est visité par le spider de google afin de ne pas avoir de sessionid dans mes url ou de cookies.
 
Sinon, j'ai vu des exemples du genre:
if (preg_match("googlebot", $_SERVER['HTTP_USER_AGENT']))  
{ session_start() ;  
}
 
Comment me conseillez vous d'aborder ce probleme ?

n°1074352
yoyo354
Yoyo, le roi du ...
Posté le 06-05-2005 à 20:31:50  profilanswer
 

ruellanl a écrit :

L'idee est de ne pas demarrer la session sur le site lorsqu'il est visité par le spider de google afin de ne pas avoir de sessionid dans mes url_ ou de cookies.
 
Sinon, j'ai vu des exemples du genre:
if (preg_match("googlebot", $_SERVER['HTTP_USER_AGENT']))  
{ session_start() ;  
}
 
Comment me conseillez-vous d'aborder ce probleme ?


 
Pour tes sessions, qu'utilises-tu ? Un SID dans l'url ou dans un cookie ?  
A mon avis, si tu passes par les cookies, tu peux laisser les sessions "normales".  
Cependant, si tu passes le SID par l'url, niveau référencement, se sera la misère :sweat:


---------------
http://yoyo.eurotchat.net -> Wednesday 14 September a 02:00:01 up 43 days, 11:47,  2 users,  load average: 0.07, 0.03, 0.00
mood
Publicité
Posté le 06-05-2005 à 20:31:50  profilanswer
 

n°1074361
esox_ch
Posté le 06-05-2005 à 20:38:13  profilanswer
 

Sans parler du point de vue secu qui fera plaisir a tout hacker aillant envie de se logger en admin sur le site


---------------
Si la vérité est découverte par quelqu'un d'autre,elle perd toujours un peu d'attrait
n°1074372
yoyo354
Yoyo, le roi du ...
Posté le 06-05-2005 à 20:51:51  profilanswer
 

esox_ch a écrit :

Sans parler du point de vue secu qui fera plaisir a tout hacker aillant envie de se logger en admin sur le site


 
Si c'est pour un espace membre :  
On inclut dans le cookie le login concassé avec le login et un grain de sel(propre à chaque utilisateur) en md5.  
Evidement, les détracteurs de la sécurité me crierons "blasphème, etc." et je suis tout ouï a écouter leur conseils en la matière  :kaola:  
 
 
 


---------------
http://yoyo.eurotchat.net -> Wednesday 14 September a 02:00:01 up 43 days, 11:47,  2 users,  load average: 0.07, 0.03, 0.00
n°1074388
ruellanl
Posté le 06-05-2005 à 21:31:23  profilanswer
 

Le probleme, c'est que j'ai cru comprendre que PHP met automatiquement les sessionid dans l'url si le navigateur refuse les cookies.
Or, comme le spider de google ne gere pas les cookies, je crains que PHP lui mette automatiquement les sessionid dans l'url, c'est pour cela que je cherche a realiser une sorte de cloaking pour les bots dans lequel les fonctionnalites du site liees aux sessions sont desactivees.
 
Lothaire

n°1074395
esox_ch
Posté le 06-05-2005 à 21:42:38  profilanswer
 

Tu as mal cru comprendre, on peut bloquer ce comportement avec une fonction qui se trouve dans la page session de php.net


---------------
Si la vérité est découverte par quelqu'un d'autre,elle perd toujours un peu d'attrait
n°1074411
ruellanl
Posté le 06-05-2005 à 22:13:53  profilanswer
 

Dans ce cas la, que va-t-il se passer si googlebot parcours mon site et que je laisse un session_start() en haut de mon code dans chacune de mes pages ?
 
Est ce que le fait qu'il recoit un cookie de mon site va influer sur mon referencement ou mon ranking ?

n°1074413
ruellanl
Posté le 06-05-2005 à 22:18:30  profilanswer
 

si j'ai bien compris, je dois mettre cette ligne dans htaccess: php_flag session.use_trans_sid off ?

n°1074439
kalex
Posté le 06-05-2005 à 23:33:59  profilanswer
 

D'une manière générale, il ne faut JAMAIS changer le contenu d'une page HTML selon l'user agent.
1 C'est pas fiable.
2 Google a un robot (Mozilla/5.0 compatible; Googlebot) qui semble destiné à vérifier ce genre de chose, on dit même qu'il gère le javascript (sûrement que les redirection).
 
En plus les sessions dans l'URL, c'est pas terrible niveau sécu.
 

esox_ch a écrit :

Bein le spider de google est basé lynx d'ailleurs non?


Non, c'est juste que lynx et google voient la même chose (la sémantique).


Message édité par kalex le 06-05-2005 à 23:34:39

Aller à :
Ajouter une réponse
  FORUM HardWare.fr
  Programmation
  PHP

  Désactiver les sessions pour les Search Engine crawlers

 

Sujets relatifs
pb pour rendre désactiver un lienLien de déstruction de sessions sans formulaire, sans page dédiée
[FLASH] Activer/désactiver la bande sonprobleme avec les sessions
Mes sessions, question de sécurité...Variables partagées entre sessions
Desactiver macro / activer macro / ne pas ouvrir le fichier[sessions et easyphp 1.7] probleme page à page
Faire des sessions PHP sur un compte gratuit Freegérer les sessions en C#
Plus de sujets relatifs à : Désactiver les sessions pour les Search Engine crawlers


Copyright © 1997-2022 Hardware.fr SARL (Signaler un contenu illicite / Données personnelles) / Groupe LDLC / Shop HFR