Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
1814 connectés 

  FORUM HardWare.fr
  Linux et OS Alternatifs
  Divers

  [Recherche barbus] Serveur qui crash sans raison apparente !

 


 Mot :   Pseudo :  
 
Bas de page
Auteur Sujet :

[Recherche barbus] Serveur qui crash sans raison apparente !

n°840184
AthlonSold​ier
Feel the power
Posté le 02-09-2006 à 14:28:15  profilanswer
 

Bonjour,
 
Je suis à la recherche de tous barbus ( = personnes skilled) pouvant m'aiguiller sur un problème de crash de serveur...
 
Le contexte : Le serveur est hébergé dans un datacenter à Paris en 1U, c'est un Athlon 64 3000+, 512 Mo de mémoire, deux disques durs de 40 Go. Il tourne sous une Debian de base (Sarge) et a toutes les dernières updates ainsi que le kernel 2.6.17.7.
 
Le symptôme : il plante assez régulièrement à 06h00 du matin, entraînant un "freeze" de tous les services fonctionnant dessus, plus rien ne réponds.
A 06h00 du matin un script basique est lancé via crond pour faire un backup de la partition système (hda) sur le second disque dur (hdc) via 'rsync' puis à l'aide de 'tar' pour générer des archives journalières de backup.
 
Autant dire qu'à 06h00 du matin toutes les ressources du serveur sont mises à rude épreuve !  :o  
 
Le problème : il n'y a aucune trace de crash dans les logs systèmes qui pourraient aider à la résolution du problème : il n'y a plus aucune écriture dedans jusqu'au reboot de la machine  :ouch:  
 
Extrait du 'syslog' et 'messages' de ce matin :

Citation :


Sep  2 05:17:01 localhost /USR/SBIN/CRON[4786]: (root) CMD (   run-parts --report /etc/cron.hourly)
Sep  2 05:39:01 localhost /USR/SBIN/CRON[23463]: (root) CMD (  [ -d /var/lib/php4 ] && find /var/lib/php4/ -type f -cmin +$(/usr/lib/php4/maxlifetime) -print0 | xargs -r -0 rm)
Sep  2 06:00:01 localhost /USR/SBIN/CRON[10988]: (root) CMD (/root/scripts/rapport > /dev/null)
Sep  2 13:52:24 localhost syslogd 1.4.1#17: restart.
Sep  2 13:52:24 localhost kernel: klogd 1.4.1#17, log source = /proc/kmsg started.
Sep  2 13:52:24 localhost kernel: Inspecting /boot/System.map-2.6.17.7
 
Sep  2 05:05:33 localhost -- MARK --
Sep  2 05:25:33 localhost -- MARK --
Sep  2 05:45:33 localhost -- MARK --
Sep  2 13:52:24 localhost syslogd 1.4.1#17: restart.
Sep  2 13:52:24 localhost kernel: klogd 1.4.1#17, log source = /proc/kmsg started.
Sep  2 13:52:24 localhost kernel: Inspecting /boot/System.map-2.6.17.7
 


 
Avec l'hébergeur nous avons déjà changé : carte mère, mémoire, alimentation, changer de disque dur et effectivement le serveur n'a plus planter jusqu'à ... hier, soit 2 semaines environ. C'est reparti comme avant, 2 plantages en 2 jours à 06h00 du matin :sweat:  
 
Le support technique a aussi effectué hier un check des partitions des deux disques durs : aucune erreur. De plus 'smartd' tourne en permanence et ne détecte aucune erreur. :/
 
Alors qu'est-ce qui pourrait se passer tant en hardware qu'en software pour aboutir à un tel freeze qui ne laisse aucune trace ?  :??:  
Quel évenement déclencheur fait d'un seul coup passer le serveur dans une phase de "crash", alors que pendant 2 semaines tout fonctionnait ?  :??:  
 
Merci d'avance pour vos commentaires constructifs  :hello:


Message édité par AthlonSoldier le 02-09-2006 à 14:34:02
mood
Publicité
Posté le 02-09-2006 à 14:28:15  profilanswer
 

n°840189
jlighty
Posté le 02-09-2006 à 14:56:49  profilanswer
 

Tu as déjà essayé de lancer ton script de backup à la main pour verifier s'il est vraiment à l'origine de ton crash ?

n°840192
AthlonSold​ier
Feel the power
Posté le 02-09-2006 à 15:12:00  profilanswer
 

Oui et ça crash. Mais il est pas à l'origine du crash, c'est un évenement déclencheur (un comme un stress test qui met en avant un prob hardware), mais le problème doit se situer ailleurs...  :sweat:
 
Ca le met juste en évidence via ce script de backup...


Message édité par AthlonSoldier le 02-09-2006 à 15:13:30
n°840194
jlighty
Posté le 02-09-2006 à 15:21:08  profilanswer
 

tu as essayé de commenter les différentes étapes de ton script afin de localiser l'étape fautive ?
Tu peux toujours installer "sar" pour avoir des traces systèmes (CPU, mémoire, I/O...).
Tes disques durs sont en IDE ou SATA, regarde s'il n'y aurait pas un bug au niveau du contrôleur.
 
Pour info, j'ai déjà eu un tel problème lors d'une copie intensive de fichiers sur le réseau, il s'avérait que c'était la carte Ethernet qui plantait le PC du faite de la mauvaise qualité du câble réseau (j'ai mis énormement de temps pour localiser cette panne  :sweat: ).

Message cité 1 fois
Message édité par jlighty le 02-09-2006 à 15:23:48
n°840224
ObsydianKe​nobi
peloton suicida
Posté le 02-09-2006 à 16:52:24  profilanswer
 

Ben heureusement que j'ai pas hébergé mon forum chez toi [:cupra]


---------------
Long-range goals keep you from being frustrated by short-term failures. RIP VC
n°840229
AthlonSold​ier
Feel the power
Posté le 02-09-2006 à 17:05:27  profilanswer
 

Tu parles vu les problèmes que tu as constament sur ton site, c'est bien pire [:cupra]

n°840230
AthlonSold​ier
Feel the power
Posté le 02-09-2006 à 17:07:43  profilanswer
 

jlighty a écrit :

tu as essayé de commenter les différentes étapes de ton script afin de localiser l'étape fautive ?
Tu peux toujours installer "sar" pour avoir des traces systèmes (CPU, mémoire, I/O...).
Tes disques durs sont en IDE ou SATA, regarde s'il n'y aurait pas un bug au niveau du contrôleur.
 
Pour info, j'ai déjà eu un tel problème lors d'une copie intensive de fichiers sur le réseau, il s'avérait que c'était la carte Ethernet qui plantait le PC du faite de la mauvaise qualité du câble réseau (j'ai mis énormement de temps pour localiser cette panne  :sweat: ).


C'est pendant le rsync, vu qu'une fois ça a crash en "live" quand j'étais loggé dessus et que je faisais un backup  :sweat:  
Mes disques durs sont en IDE, et niveau "bug au niveau du controleur", la carte mère a été changé alors bon... :/

n°840236
beel1
Posté le 02-09-2006 à 17:24:41  profilanswer
 

Si c'est effectivement un problème de hard, trouve un moyen de stresser ton serveur avec autre chose que ton script. Et stresse séparément le disque, la RAM et le CPU.

n°840248
Zzozo
Modérateur
Un peu, passionément, à la fol
Posté le 02-09-2006 à 18:00:57  profilanswer
 

Quelle version de rsync ?
 

Spoiler :

( Y'a pas une femme de ménache qui pache l'achpirator vers 6h du mat, des fois, dans le datacenter ?  [:cupra] )


---------------
« Ce qui ne vous tue pas vous rend plus fort » F. Nietzsche | « Vise_ la Lune. Si tu rates, au pire, t'es dans la merde » Un poète disparu dans le cercle
n°840252
Fork Bomb
Obsédé textuel
Posté le 02-09-2006 à 18:14:50  profilanswer
 

Zzozo a écrit :

Spoiler :

( Y'a pas une femme de ménache qui pache l'achpirator vers 6h du mat, des fois, dans le datacenter ?  [:cupra] )



Déconnes pas, j'y ai pensé (CF topic des informaticiens et des gens qui leur courrent après).


Message édité par Fork Bomb le 02-09-2006 à 18:15:18

---------------
Décentralisons Internet-Bépo-Troll Bingo - "Pour adoucir le mélange, pressez trois quartiers d’orange !"
mood
Publicité
Posté le 02-09-2006 à 18:14:50  profilanswer
 

n°840253
AthlonSold​ier
Feel the power
Posté le 02-09-2006 à 18:23:40  profilanswer
 

Zzozo a écrit :

Quelle version de rsync ?


rsync  version 2.6.4  protocol version 29
 
Et non il n'y a pas de femme de ménage, et non ça n'a rien a voir avec l'heure. Je peux executer le script a n'importe quelle heure, ça plantera quelques fois (pas tout le temps).  [:spamafote]

n°840260
M300A
Sehr hopfen, vielen IBU, wow!
Posté le 02-09-2006 à 19:04:26  profilanswer
 

Ram foireuse jsuis sur

n°840261
AthlonSold​ier
Feel the power
Posté le 02-09-2006 à 19:09:44  profilanswer
 

Déjà changé deux fois et sur des stress test comme Prime 95 aucune erreur pendant des heures...  [:spamafote]

n°840305
Zzozo
Modérateur
Un peu, passionément, à la fol
Posté le 03-09-2006 à 07:42:56  profilanswer
 

T'as bcp de fichiers (en nombre) impliqués dans le backup ?
Y'a quoi d'autre qui tourne en même temps sur cette machine ?
 
EDIT : Et c'est quoi la ligne de commande exacte utilisée pour lancer le rsync ?


Message édité par Zzozo le 03-09-2006 à 07:43:41

---------------
« Ce qui ne vous tue pas vous rend plus fort » F. Nietzsche | « Vise_ la Lune. Si tu rates, au pire, t'es dans la merde » Un poète disparu dans le cercle
n°840306
Zzozo
Modérateur
Un peu, passionément, à la fol
Posté le 03-09-2006 à 07:54:05  profilanswer
 

Ma première impression, c'est un manque de mémoire (avec du coup, une utilisation plus qu'intensive du swap, avec les conqéquences que ça peut avoir) ...


---------------
« Ce qui ne vous tue pas vous rend plus fort » F. Nietzsche | « Vise_ la Lune. Si tu rates, au pire, t'es dans la merde » Un poète disparu dans le cercle
n°840335
AthlonSold​ier
Feel the power
Posté le 03-09-2006 à 13:14:13  profilanswer
 

Bon en fait la situation a empiré maintenant. Il plante pour un rien et plus du tout juste pour le backup. Le système est complètement instable...
Du genre, je reboot la machine, je vais sur un de mes sites webs, la page s'affiche, je reload la page => serveur down  [:ddr555]  
 
C'est dramatique là, en plus on est dimanche, personne peut intervenir dessus  :sweat:
 
EDIT : C'est vraiment super étrange. Je pense pas que ca soit la mémoire ni le reste qui soit en cause (sinon ca afficherait des erreurs dans des tortures tests comme Prime 95 bien avant de "freeze" tout un système !). On dirait qu'un élément electrique se charge pendant ~1/2 semaines et une fois chargé il rends le système totalement instable... c'est mon hypothèse en tout cas.  
Ca fais déjà 2 fois que le problème intervient et on a changé plein d'éléments hardwares (dont la mémoire), le système est très stable dans un premier temps et ensuite il redevient instable...au bout de quelques semaines  :sweat:
 
EDIT2 : En fait le plantage au Backup c'est comme une sonnette d'alarme où le système dit "Je suis rentré dans une phase instable, attention  :o "
 
EDIT3 : Donc "rsync" et "manque de mémoire" tombent à l'eau, le problème est "ailleurs" :/


Message édité par AthlonSoldier le 03-09-2006 à 13:25:46
n°840343
beel1
Posté le 03-09-2006 à 13:35:59  profilanswer
 

le disque qui se bloque et fout en vrac l'IDE :spamafote:
fout tes données sur un autre disque et essaye

n°840345
AthlonSold​ier
Feel the power
Posté le 03-09-2006 à 13:40:26  profilanswer
 

Non le disque dur a été changé (le disque système en tout cas), et même si je mount pas l'autre (l'ancien de backup), ça crash toujours pareil. De plus pourquoi il faudrait attendre plus d'une semaine pour que le disque dur commence à planter ?  :heink:  
Pour finir les disques durs sont monitorés par "smartd", il n'y a aucune erreur, de même qu'avec un fschk manuel :)
 
On peut donc écarter l'hypothèse des disques durs je pense  :o

n°840354
Mjules
Modérateur
Parle dans le vide
Posté le 03-09-2006 à 14:07:47  profilanswer
 

température qui monte et fini par faire planter la machine ?


---------------
Celui qui pose une question est idiot 5 minutes. Celui qui n'en pose pas le reste toute sa vie. |  Membre du grand complot pharmaceutico-médico-scientifico-judéo-maçonnique.
n°840357
beel1
Posté le 03-09-2006 à 14:13:27  profilanswer
 

bouarf le smart... j'ai sur le coin de la table un dur qui aléatoirement choucroutait le système (freeze complet) lors d'un accès et le smart n'a jamais rien vu passer... Y'avait rien de systématique. Si c'est un défaut électronique, tout foire :spamafote:
D'ailleurs si le disque sert pas, à la prochaine intervention physique il faudrait en profiter pour le débrancher, tant que t'as pas résolu le problème, c'est le seul moyen pour être sûr qu'il foute pas en vrac l'IDE...  
Pasque si je comprends bien, le disque de backup est un relicat de ton ancien système. Y'a que lui et le CPU qui n'ont pas été changé ?

n°840363
AthlonSold​ier
Feel the power
Posté le 03-09-2006 à 14:28:45  profilanswer
 

Normalement oui, ce sont les deux choses de l'ancien système.

n°840369
beel1
Posté le 03-09-2006 à 14:37:23  profilanswer
 

Donc voilà. Disque à débrancher et CPU à changer (puisqu'un A64 contient le contrôleur mémoire si je ne m'abuse, ce qui fait que le changement de carte mère ne change rien à ce niveau-là), tu commenceras à y voir plus clair.
Ah, les nappes aussi pourquoi pas... et tu devrais avoir fait le tour niveau hard (sauf si t'as remplacé un composant foireux par un composant foireux :D )

n°840371
AthlonSold​ier
Feel the power
Posté le 03-09-2006 à 14:42:22  profilanswer
 

Je vais surtout demander une nouvelle machine toute neuve, je commence à en avoir marre.  :o


Message édité par AthlonSoldier le 03-09-2006 à 14:42:36
mood
Publicité
Posté le   profilanswer
 


Aller à :
Ajouter une réponse
  FORUM HardWare.fr
  Linux et OS Alternatifs
  Divers

  [Recherche barbus] Serveur qui crash sans raison apparente !

 

Sujets relatifs
Squid + serveur DNS + FireholRecherche driver pour carte interne Air Port Extreme
Serveur web utilisé par Google - GWS ?Serveur de mail type Communigate
[debian] Partitionnement pour serveurRecherche un petit script pour Sauvegarder les images d'un site
[Serveur Web] Qu'elle distribution de linux?serveur dont le system est intouchable
ftp sur serveur localRecherche équivalent easy photo print sous linux
Plus de sujets relatifs à : [Recherche barbus] Serveur qui crash sans raison apparente !


Copyright © 1997-2022 Hardware.fr SARL (Signaler un contenu illicite / Données personnelles) / Groupe LDLC / Shop HFR