Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
1147 connectés 

  FORUM HardWare.fr
  Linux et OS Alternatifs
  Hardware

  RAID 5 logiciel : disque en défaut de manière régulière

 


 Mot :   Pseudo :  
 
Bas de page
Auteur Sujet :

RAID 5 logiciel : disque en défaut de manière régulière

n°1167775
Gurney_Hal​leck
dévisage des figures
Posté le 29-09-2009 à 07:00:44  profilanswer
 

Bonjour à tous,
 
Voilà, j'ai un RAID 5 logiciel (mdadm donc) de 4 disques Samsung 1.5To (en gros, sdb, sdc, sdd et sde).
 
Depuis quelques temps maintenant, j'ai un disque qui se met en défaut. Au début c'était sde (2 fois), samedi sdc et ce matin encore sdc.
 
Les disques semblent ok (à part sdc qui faisait des petits claquements pendant quelques temps, samedi). Par exemple ce matin, je n'ai même pas eu à enlever le disque fautif, je l'ai juste retiré de l'array (mdadm -r) pour le remettre immédiatement après (mdadm -a). Là l'array est en reconstruction à une vitesse normale.
 
Physiquement, ce sont pour l'instant les deux disques du "bas" qui sautent. J'ai vérifié les connexions, qui semblent ok, mais y'a un backplane et j'y ai pas accès (enfin, j'ai pas vraiment cherché).
 
Mes données importantes sont backupées tous les jours (rsnapshot est formidable !) donc une défaillance de la grappe ne serait pas catastrophique mais ça me ferait bien ch*er.
 
Est-ce que ça dit quelque chose à quelqu'un ? De quoi ça pourrait venir ?
 
Ma config : Atom330 dans un boitier chenbro mini-itx avec une alim 120W derrière un onduleur, carte contrôleur Promise (juste des ports SATA, pas de raid), et donc 4x Samsung 1.5To.
 
Merci d'avance :hello:

mood
Publicité
Posté le 29-09-2009 à 07:00:44  profilanswer
 

n°1167780
esox_ch
Posté le 29-09-2009 à 07:36:11  profilanswer
 

SMART te dit rien?


---------------
Si la vérité est découverte par quelqu'un d'autre,elle perd toujours un peu d'attrait
n°1167782
Gurney_Hal​leck
dévisage des figures
Posté le 29-09-2009 à 08:10:57  profilanswer
 

Ah, bonne idée.
 
Je regarderais ce soir. hdparm -i pour accéder aux infos SMART ?

n°1167789
fighting_f​alcon
Posté le 29-09-2009 à 08:59:23  profilanswer
 

smartctl -a /dev/sdX
 
 
du paquet smartmontools

n°1167802
Gurney_Hal​leck
dévisage des figures
Posté le 29-09-2009 à 09:22:32  profilanswer
 

Merci bien. Je vous tiens au courant.
 
Le paramètre Command Timeout semble le plus intéressant dans mon cas. Spin Retry Count aussi.

n°1168518
Gurney_Hal​leck
dévisage des figures
Posté le 01-10-2009 à 19:01:39  profilanswer
 

Resalut,
 
Rien de notable dans les infos SMART.
 
sdc vient néanmoins de retomber. Voici les logs de /var/log/messages. Des idées ?
 

Oct  1 18:45:31 server kernel: [447210.450224] ata6: hard resetting link
Oct  1 18:45:37 server kernel: [447215.840034] ata6: link is slow to respond, please be patient (ready=-19)
Oct  1 18:45:41 server kernel: [447220.460091] ata6: hard resetting link
Oct  1 18:45:47 server kernel: [447225.850032] ata6: link is slow to respond, please be patient (ready=-19)
Oct  1 18:45:51 server kernel: [447230.470094] ata6: hard resetting link
Oct  1 18:45:57 server kernel: [447235.860033] ata6: link is slow to respond, please be patient (ready=-19)
Oct  1 18:46:26 server kernel: [447265.500098] ata6: limiting SATA link speed to 1.5 Gbps
Oct  1 18:46:26 server kernel: [447265.500115] ata6: hard resetting link
Oct  1 18:46:31 server kernel: [447270.530103] ata6.00: disabled
Oct  1 18:46:31 server kernel: [447270.530157] ata6: EH complete
Oct  1 18:46:31 server kernel: [447270.530201] sd 5:0:0:0: [sdc] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK,SUGGEST_OK
Oct  1 18:46:31 server kernel: [447270.530306] md: super_written gets error=-5, uptodate=0
Oct  1 18:46:31 server kernel: [447270.530427] sd 5:0:0:0: [sdc] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK,SUGGEST_OK
Oct  1 18:46:31 server kernel: [447270.530501] sd 5:0:0:0: [sdc] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK,SUGGEST_OK
Oct  1 18:46:31 server kernel: [447270.530563] sd 5:0:0:0: [sdc] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK,SUGGEST_OK
Oct  1 18:46:31 server kernel: [447270.532629] ata6: hard resetting link
Oct  1 18:46:31 server kernel: [447270.553077] RAID5 conf printout:
Oct  1 18:46:31 server kernel: [447270.553089]  --- rd:4 wd:3
Oct  1 18:46:31 server kernel: [447270.553095]  disk 0, o:1, dev:sdb
Oct  1 18:46:31 server kernel: [447270.553100]  disk 1, o:0, dev:sdc
Oct  1 18:46:31 server kernel: [447270.553104]  disk 2, o:1, dev:sdd
Oct  1 18:46:31 server kernel: [447270.553108]  disk 3, o:1, dev:sde
Oct  1 18:46:31 server kernel: [447270.554867] RAID5 conf printout:
Oct  1 18:46:31 server kernel: [447270.554878]  --- rd:4 wd:3
Oct  1 18:46:31 server kernel: [447270.554885]  disk 0, o:1, dev:sdb
Oct  1 18:46:31 server kernel: [447270.554891]  disk 2, o:1, dev:sdd
Oct  1 18:46:31 server kernel: [447270.554897]  disk 3, o:1, dev:sde
Oct  1 18:46:37 server kernel: [447276.320040] ata6: link is slow to respond, please be patient (ready=-19)
Oct  1 18:46:41 server kernel: [447280.580084] ata6: hard resetting link
Oct  1 18:46:47 server kernel: [447286.370054] ata6: link is slow to respond, please be patient (ready=-19)
Oct  1 18:46:51 server kernel: [447290.640079] ata6: hard resetting link
Oct  1 18:46:57 server kernel: [447296.430047] ata6: link is slow to respond, please be patient (ready=-19)
Oct  1 18:47:23 server kernel: [447322.240075] ata6: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Oct  1 18:47:23 server kernel: [447322.262994] ata6.00: ATA-7: SAMSUNG HD154UI, 1AG01118, max UDMA7
Oct  1 18:47:23 server kernel: [447322.263008] ata6.00: 2930277168 sectors, multi 0: LBA48 NCQ (depth 0/32)
Oct  1 18:47:23 server kernel: [447322.280508] ata6.00: configured for UDMA/133
Oct  1 18:47:23 server kernel: [447322.280819] ata6: hard resetting link
Oct  1 18:47:24 server kernel: [447323.030077] ata6: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Oct  1 18:47:24 server kernel: [447323.070492] ata6.00: configured for UDMA/133
Oct  1 18:47:24 server kernel: [447323.070513] ata6: EH complete
Oct  1 18:47:24 server kernel: [447323.070545] ata6.00: detaching (SCSI 5:0:0:0)
Oct  1 18:47:24 server kernel: [447323.090359] sd 5:0:0:0: [sdc] Synchronizing SCSI cache
Oct  1 18:47:24 server kernel: [447323.093340] sd 5:0:0:0: [sdc] Stopping disk
Oct  1 18:47:25 server kernel: [447324.341910] scsi 5:0:0:0: Direct-Access     ATA      SAMSUNG HD154UI  1AG0 PQ: 0 ANSI: 5
Oct  1 18:47:25 server kernel: [447324.342207] sd 5:0:0:0: [sdh] 2930277168 512-byte hardware sectors (1500302 MB)
Oct  1 18:47:25 server kernel: [447324.342267] sd 5:0:0:0: [sdh] Write Protect is off
Oct  1 18:47:25 server kernel: [447324.342379] sd 5:0:0:0: [sdh] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Oct  1 18:47:25 server kernel: [447324.342598] sd 5:0:0:0: [sdh] 2930277168 512-byte hardware sectors (1500302 MB)
Oct  1 18:47:25 server kernel: [447324.342656] sd 5:0:0:0: [sdh] Write Protect is off
Oct  1 18:47:25 server kernel: [447324.342768] sd 5:0:0:0: [sdh] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Oct  1 18:47:28 server kernel: [447324.342783]  sdh: unknown partition table
Oct  1 18:47:28 server kernel: [447327.065163] sd 5:0:0:0: [sdh] Attached SCSI disk
Oct  1 18:47:28 server kernel: [447327.065444] sd 5:0:0:0: Attached scsi generic sg7 type 0

n°1168566
esox_ch
Posté le 01-10-2009 à 22:17:38  profilanswer
 

Je me demande si c'est pas la carte mère ...
J'ai un des soucis de ce genre une fois chez moi, à cause de la carte mère justement


---------------
Si la vérité est découverte par quelqu'un d'autre,elle perd toujours un peu d'attrait
n°1168567
Gurney_Hal​leck
dévisage des figures
Posté le 01-10-2009 à 22:20:25  profilanswer
 

Salut,
 
En voyant ça, je me suis dit que ça venait de ma carte contrôleur (Promise 4 ports SATA). Ca rejoint un peu ton idée (vu que dans ton cas le contrôleur était probablement sur la CM).
 
Merci en tout cas !

n°1168606
fighting_f​alcon
Posté le 02-10-2009 à 07:57:39  profilanswer
 

Ah la la ... promise SATA 4 ports que du bonheur malheur sous GNU/Linux ...
 
J'ai eu les mêmes merdes avec la même carte, un disque qui régulièrement se "déconnectait" (niveau SATA j'entends) alors qu'il était parfaitement fonctionnel.
Je ne sais plus trop trop ce qui a vraiment remis les choses d'aplomb, mais deux pistes :
1- utilise le noyau le plus récent possible
2- j'ai "déchargé" ma carte, de 4 disques, je n'en ai plus branché que 2. Je rebranché les 2 autres sur une autre carte que j'avais de toute façon dans mon PC ...

n°1168609
Gurney_Hal​leck
dévisage des figures
Posté le 02-10-2009 à 08:17:36  profilanswer
 

fighting_falcon a écrit :

Ah la la ... promise SATA 4 ports que du bonheur malheur sous GNU/Linux ...

 

J'ai eu les mêmes merdes avec la même carte, un disque qui régulièrement se "déconnectait" (niveau SATA j'entends) alors qu'il était parfaitement fonctionnel.
Je ne sais plus trop trop ce qui a vraiment remis les choses d'aplomb, mais deux pistes :
1- utilise le noyau le plus récent possible
2- j'ai "déchargé" ma carte, de 4 disques, je n'en ai plus branché que 2. Je rebranché les 2 autres sur une autre carte que j'avais de toute façon dans mon PC ...

 


Salut !

 

Merci pour les infos. J'ai regarde hier et effectivement, y'a pas mal de problèmes avec certains contrôleurs (la promise est en bonne place). D'après ce que j'ai lu, ça vient du driver sata_promise et sur les noyaux post 2.6.24 ça devrait être corrige. Mais je tourne avec le 2.6.27 et certains reportent le même bug avec le noyau de Jaunty (la version m'échappe).

 

Par contre, merci pour le truc du déchargement. Je vais upgrader vers Jaunty mais si ca change rien, j'ai effectivement un port de libre sur ma carte mère, je l'utiliserais a la place d'un port de la promise.

 

Merci bien. :hello:


Message édité par Gurney_Halleck le 02-10-2009 à 08:18:50
mood
Publicité
Posté le 02-10-2009 à 08:17:36  profilanswer
 

n°1172002
barbarius8​8
alleeeeer rouuuuule
Posté le 15-10-2009 à 10:39:55  profilanswer
 

copain de chenbro  [:arg] !!!
 
toi aussi t'as des problèmes de connexion sur l'étage du bas? moi c'était le numéro 3 qui me faisait ch*er. y a fallu que je démonte tout (et c'est chiant à démonter ces bestioles !!) pour pouvoir bien pousser le dd à la main (pas très pratique pour du rack  :sweat: )
sinon moi je tourne sur un g45 (cf config) je te dirai ce que ça donne mais pour le moment ça à l'air de bien marcher (en même temps je ne l'ai mis en marche que hier alors ...  :whistle: )

n°1172006
Gurney_Hal​leck
dévisage des figures
Posté le 15-10-2009 à 10:47:15  profilanswer
 

Oui, 3 aussi dans mon cas ! Et tu m'étonnes le démontage/remontage, c'te galère...
 
J'ai upgradé récemment a Karmic server et depuis plus de soucis... mais vu que j'ai réinsérer mes disques aussi, je peux pas dire si ça vient d'une mauvaise connexion ou d'un problème de driver...
 
Je pencherais pour le driver tout de même...

n°1172073
barbarius8​8
alleeeeer rouuuuule
Posté le 15-10-2009 à 12:32:07  profilanswer
 

moi c'est bien un problème de connexion : le 3 ne s'enfonce pas assez dans le backplane et du coup ne ce connecte pas

n°1184748
Kytrix
Posté le 08-12-2009 à 23:43:22  profilanswer
 

Bonjour
petit historique pour ma part :
mon serveur à base d'un barebone nforce4 sous linux hardy.
lorsque je suis passé au raid 1 logiciel avec des disques SATA j'ai eu des erreur SATA slow to respond ... hard resetting link .. ect...
il s'est avéré que les instructions NCQ et le cache en écriture était responsable.
Du coup j'ai désactiver le ncq et supprimé le cache en écriture via un script au démarrage.
 
récement j'ai changé un des disques par un samsung F2 1.5 To
résultat: l'erreur est revenue et la bidouille ne fonctionnait plus !
j'ai décidé de mettre à jour ma configuration car le nforce4 semblait etre un peu responsable.
Résultat: carte mere intel Atom 330, dans un boitier smart teck ezplug.
après montage, premier rsync sur mon raid logciel : bang même erreur !
 
Pour info si je copie des données sur une partition en dehors du raid, pas de soucis meme après plusieurs centaines de Go, alors que sur une partition raid ça plante au bout de quelques secondes/minutes !
 
Je vais tenter de passer à karmic serveur..  
je vous tiens au courant !
 
Kytrix


Message édité par Kytrix le 09-12-2009 à 13:18:56

---------------
HTPC Xbmc | Vidéoprojecteur Intégré/WAF
n°1185499
Kytrix
Posté le 11-12-2009 à 22:58:56  profilanswer
 

Bon,
après avoir fait la mise à jour vers Karmic, j'ai eu direct un message SMART me disant que mon disque était défectueux, à cause d'un nombre de mauvais secteurs trop important (809 !!)
je ne pensais pas que mon problème venait du disque étant donné que sur une autre partition j'avais aucun souci !
 
je vais le renvoyer à Samsung !


---------------
HTPC Xbmc | Vidéoprojecteur Intégré/WAF

Aller à :
Ajouter une réponse
  FORUM HardWare.fr
  Linux et OS Alternatifs
  Hardware

  RAID 5 logiciel : disque en défaut de manière régulière

 

Sujets relatifs
Installer un serveur debian sur un disque dur Storex NAS 351Debian Etch - RAID 1 Array degrade
[RESOLU] Accéder à une partition raid 1 logiciel (ext3) sous WindowsDébordement du quotas d'espace disque
Cherche nom logiciel enregistreur audio americainLVM + RAID soft futur
Disque raid logiciel plus reconnu sous UBUNTU 
Plus de sujets relatifs à : RAID 5 logiciel : disque en défaut de manière régulière


Copyright © 1997-2022 Hardware.fr SARL (Signaler un contenu illicite / Données personnelles) / Groupe LDLC / Shop HFR