Le but de la technologie RAID est daugmenter la fiabilité des systèmes de stockage des données sur disque dur, ceci en ajoutant de la redondance dinformations, afin de palier à déventuelles défaillances matérielles. Le principe des systèmes Raid a été conçu en 1987 par les utilisateurs Unix de l'université de Berkeley il repose sur l'utilisation de plusieurs petits disques bon marché de préférence à un disque de grosse capacité et coûteux.
Cette technologie, qui fonctionne aussi bien sur mac que sur PC est principalement utilisée sur des serveurs de fichiers, bien quelle puisse sappliquer à une station de travail personnelle. A lorigine, elle nécessitait une interface spécifique entre lordinateur et les disques durs (par exemple les cartes contrôleurs SCSI utilisant la technologie RAID). Mais aujourdhui, on peut mettre en uvre le RAID de manière logicielle (appelée Soft Raid), notamment sous Linux (aussi bien pour des disques SCSI ou IDE, que pour un mélange des deux). Lavantage de la solution logicielle est que lon peut lutiliser sur des partitions (ce qui permet de conserver une partition pour un autre système dexploitation).
[Pour ceux qui sont intéressés par la mise en uvre logicielle (Soft RAID) de RAID sous Linux, consultez le ROOT-RAID-HOWTO et le Software-RAID-mini HOWTO]
On peut utiliser RAID pour :
augmenter la capacité : RAID permet de mettre « bout à bout » des disques durs, ce qui permet daccroître la taille du volume (ex : avec 2 disques dun Go, on peut créer un seul volume de 2 Go).
Améliorer les performances : Les données peuvent être écrites alternativement sur plusieurs disques, ainsi le débit est amélioré.
Exemple: Soit un fichier de 10Mo. S'il est écrit sur un disque ayant un débit de 5mo/s, il sera écrit en 2 secondes. Si l'écriture est partagée entre deux disques, le temps total ne sera en théorie plus que d'une seconde. Si on utilise 5 disques, le temps est réduit à 40/100èmes de secondes. Mais la gestion du système RAID, de l'écriture d'informations de tolérance de panne, et surtout de goulets d'étranglement ne permettent pas toujours l'arrivée suffisamment rapide des données aux disques.
tolérance de panne : Certaines configurations RAID permettent déviter la perte de données en cas de panne dun disque dur appartenant à une configuration RAID.
Les différents niveaux de RAID
Il existe plusieurs niveau de RAID, chaque niveau correspondant à la manière dont sont stockées les données sur les différents disques.
(On peut regrouper les systèmes Raid en deux catégories de produits aux prix et aux Performances bien distinctes Raid 0 et Raid 1 les plus accessibles sont destinés à des postes de travail isolés Raid 3 Raid 4 et Raid 5 s adressent plutôt aux serveurs de fichiers.)
RAID-linear :
Ce niveau permet de cumuler lespace des disques affectés au système RAID en les concaténant pour avoir une partition virtuelle unique. Quand un des disques est rempli, lécriture se poursuit de manière invisible pour lutilisateur sur le disque suivant. En cas de défaillance dun disque, toutes les données situées sur lensemble des disques en RAID-linear deviennent inaccessibles. (Si on dispose de deux disques durs en RAID-linear, un de 300 Mo, lautre de 340 Mo, il est possible de faire une image dun CD-Rom sur une seule partition (utile pour le graver par la suite)
RAID-0 : Mode « STRIPING »
Ce niveau permet également de cumuler lespace des partitions mais en écrivant les données alternativement sur les différents disques synchronisés. Les données étant réparties sur plusieurs disques, le débit est amélioré. Mais en cas de défaillance dun des disques, toutes les données situées sur lensemble des disques en RAID-0 est perdu. Comme pour le mode RAID-linear, le risque de panne augmente avec le nombre de disques. RAID-0 napporte aucune sécurité aux données mais permet de stocker des fichiers gourmands en espace disque, beaucoup plus rapidement quen RAID-linear. RAID-0 est implanté en standard sous NT WorkStation.
RAID-1 : Mode « mirroring » [« duplexing » si utilisation de 2 canaux SCSI]
Cest le premier niveau à mettre en uvre la redondance dinformations, afin daccroître la sécurité des données. Toutes les informations sont dupliquées sur un disque qui contient lensemble des données. Il nécessite un minimum de deux disques durs. Si un des disques tombe en panne, celui censé conserver une copie des données servira à retrouver les données manquantes. Cest un dispositif de mirroring (miroir). La capacité et le débit ne sont pas augmentés [et le « Hot Swap » des disques nest pas permis (échange de disque à chaud)]. Si un serveur utilise un système en RAID-1, en cas de panne le serveur sarrête puis redémarre sur le bon disque. [le contrôle des disque peut se faire par un logiciel comme Raid Mounter (dOptima Technologie), ou par un contrôleur matériel optimisé RAID-1]. RAID-1 est correct pour un serveur aux accès limités. (Chez Apple, on propose un logiciel de contrôle (Apple Raid Software) pour paramétrer un tel système.)
RAID-2 :
Cest encore un dispositif de mirroring, sauf quun seul des disques est sollicité lors des opérations de lecture. Ils écrivent tous, mais lors de la lecture dun disque les autres se reposent, ce qui est censé améliorer leur fiabilité. Chaque bit des données est stocké sur un ou plusieurs disques et un code de correction derreur est stocké sur un ou plusieurs disques [ algorithme de HAMMING]. Ce dispositif nécessite en général une carte spéciale. RAID-2 nest pratiquement plus utilisé (presque tous les périphériques SCSI possèdent en interne leur propre gestion de correction derreur).
Les modes suivants sont destinés aux serveurs de fichiers aux applications Multi-Utilisateurs et aux serveurs OPI (serveurs d'images permettant aux intervenants de travailler sur des images de taille réduite) et sont assez coûteux.
RAID-3 :
Même principe que RAID-0, sauf quil utilise un disque supplémentaire servant à stocker des indications de parité. Il faut un disque très robuste pour assurer le contrôle de parité, car ce disque travaille 2 fois plus que les autres. Si un des autres disques tombe en panne, le contrôle de parité servira à reconstruire les données. Si le disque de contrôle tombe en panne, on se retrouve en RAID-0. [Le taux de transfert en lecture comme en écriture est très important]
Le nombre minimum de disques pour lutilisation de RAID-3 est de 3. Mode très peu implémenté car très difficile de le réaliser uniquement par logiciel, et en général la taille minimum dune information stockée est de la taille dun secteur, soit 512 octets. RAID-3 est surtout utilisé sur les super-calculateurs et les ordinateurs graphiques.
RAID-4 :
Même principe que RAID-3 mais un block entier de données est stocké sur un seul disque et le système génère et stocke une parité de plusieurs blocks provenant de différents disques de données sur un seul disque de parité. Les taux de transferts sont très importants en lecture de larges fichiers mais ce mode est peu performant en écriture car le contrôleur doit mettre à jour les données de parité. Cette opération nécessite entre autre une lecture de lancienne parité avant le calcul et lécriture de la nouvelle. Ces opérations transforment le disque de contrôle de parité, le transformant en goulot détranglement (car il est sollicité à chaque opération décriture). Pour cette raison, le mode RAID 5 est toujours préféré aux systèmes RAID de niveau 4.
RAID-5 :
Le contrôle de parité est réparti entre tous les disques, donc tous les disques travaillent en théorie autant. Pour n disques, le système est n fois plus rapide que sil utilisait un seul disque. Si un disque tombe en panne, il suffit de lenlever et de le remplacer par un nouveau, dont les données seront régénérées à partir des autres disques. Cette manuvre nécessite un équipement hotplug (branchement à chaud), ce qui permet de remplacer le disque défaillant sans interrompre le système, et le nouveau disque sera automatiquement configuré sans altération des performances du système. Lespace de stockage sera toutefois diminué de léquivalent dun disque (pour le contrôle) donc il vaut mieux utiliser 7 disques que 3. Avec 3 disques on perd un tiers de lespace, avec 7, seulement un septième.
Ce mode est très performant pour la lecture de gros fichiers et bonne pour la lecture de petits fichiers. Lutilisation logicielle du mode RAID-5 est très pénalisante du point de vue CPU surtout en cas de panne. Une solution matérielle est très performante, surtout avec beaucoup de mémoire. [la taille dun bloc varie entre la taille dun secteur et plusieurs Mo suivant le contrôleur utilisé.]
Ce mode évite le goulot détranglement évoqué pour le mode RAID-4.
IBM a proposé le système Orthogonal RAID-5, basé sur une technique logicielle qui utilise un contrôleur par disque dur appartenant au système. Ainsi le système peut continuer à fonctionner même en cas de panne dun disque, mais aussi dun contrôleur. RAID-5 est principalement utilisé par les entreprise faisant des systèmes de traitement transactionnel.
Pour se protéger de la défaillance de plusieurs disques durs, il est possible dutiliser le Soft-RAID (RAID logiciel) en couche.
Par exemple, on peut faire du RAID-5 sur 3 partitions virtuelles, elles-mêmes formées de 3 partitions en RAID-5.
Il faut un espace disque beaucoup plus important pour stocker la parité (Sur 9 partitions, 5 seront utilisées pour stocker la parité).
RAID-6 :
Personne ne semble daccord sur la définition du mode RAID-6, sauf sur le fait que ce mode utilise une double redondance des données. Ce système est peu commercialisé.
IBM le décrit comme un dérivé de RAID-1, dautres comme un dérivé de RAID-5 avec deux codes de redondance, ce qui permet au système de continuer à fonctionner, même en cas de pannes simultanées de deux disques.
RAID-7 :
Ce mode supporte la perte de plusieurs disques durs, selon le nombre de disques durs assignés au stockage de la parité. Il utilise une carte microprocesseur qui contrôle toutes les opérations de calcul de la parité, du cache et de la surveillance des disques. Les performances sont accrues de 1 à 6 fois celle des autres modes RAID. Ce mode supporte jusquà 48 disques connectés [et 12 canaux hôtes] .
RAID-S :
semble relativement similaire au RAID-3. (Pas de documentation sur ce mode.)
RAID-H :
(Pas de documentation sur ce mode.)
[Certains constructeurs de contrôleur RAID propose des combinaisons de plusieurs niveaux de RAID, en voici quelques exemples :
RAID 5+1
ou
RAID niveau 1+0 : Combinaison du mode 0 (" STRIPING " ) et du mode 1 (" MIRRORING " )
Ce mode à lavantage de combiner les performances avec la sécurité.
RAID niveau 53 : Combinaison du mode 0 (" STRIPING " ) et du mode 3
Ce mode accroît davantage encore la combinaison des performances avec la sécurité.]
La solution logicielle des noyaux de Linux autorise 5 niveaux (RAID-linear, RAID-0, RAID-1, RAID-4, RAID-5).
Avantages et inconvénients de RAID
Cette technologie, mal employée, peut conduire à des pertes de données, ce qui est le contraire du but recherché.
NIVEAU AVANTAGES
INCONVENIENTS
RAID 1 Les meilleures performances Grand espace disque utilisé pour redondance
RAID 3 - Débit important
- Petit espace disque utilisé pour redondance Performances faibles en entrées-sorties
RAID 5 - Entrées / Sorties performantes
- Petit espace disque utilisé pour redondance Performances faibles en écriture
RAID 6 - Disponibilité > RAID 5
- Entrées / Sorties performantes Performances faibles en écriture
Bibliographie :
Stockage de données distribuées / les disques RAID, Renaud Hilleret, Hermes, Paris
EXEMPLE DUTILISATEUR DE DISQUES RAID :
Windows NT WorkStation supporte le RAID 0.
Windows NT Serveur permet dutiliser les RAID 0, 1 et 5. [Mais ni le boot NT, ni la partition système ne peuvent être sur un volume RAID-0 ou RAID-5 à cause du driver de tolérance de panne chargé au lancement de NT]
Windows 2000 permet la création dun RAID-1 et dun RAID-5 mais il y a déjà un bug : on doit parfois reformater la partition en RAID-5 à plusieurs reprise avant quelle ne se décide à être acceptée par le système.
L'avenir est au Raid
Vous n'avez probablement pas fini d'entendre parler des systèmes Raid. Laccès à Internet, les animations multimédias la visioconférence sont autant de domaines davenir gourmands en ressources. De plus, l'évolution du prix des disques durs suit celle des autres périphériques : on peut aujourd'hui acheter un disque dur de 13 Go pour 1000 F.
Définitions :
SCSI : Small Computer System Interface : un protocole de communication entre périphériques, 11 permet de connecter 7 périphériques, numérotés de 0 à 6.
Disk Duplexing : Alternative au Disk Mirroring : système à tolérance de pannes où le disque ainsi que le contrôleur sont en double, reliés les uns aux autres, ce qui assure une meilleure sécurité qu'un seul exemplaire de chaque.
Parité : Processus algorithmique permettant au système de reconstituer une donnée défectueuse ou manquante à partir de linformation de parité mémorisée au cours de lécriture . Pour le calcul de linformation de parité, consulter une page Web parlant de lintégrale de parité de Langlet.
Serveurs de fichiers
En fait, les constructeurs concentrent leurs efforts sur les systèmes Raid 5, qui dépassent les niveaux intermédiaires. Les travailleurs en réseau à partir d'une application Multi-Utilisateur, d'une base de données documentaire ou d'un serveur OPI, sous forme de juke-box C.D., par exemple, ont tout intérêt à s'orienter vers un système Raid 5, rapide et totalement sécurisé, en rack ou en tour. Grâce aux codes de parité entrelacés sur les différents disques, un Raid 5 peut utiliser un très grand nombre de disques, 3 au moins, 5 ou 9 en général par tour ou par rack on peut également bâtir des grappes de tours et de racks et atteindre des volumes de plusieurs téra-octets ! Le Raid 5 tire sa rapidité des contrôleurs de disques. La plupart utilisent des cartes SCSI 2 Fast & Wide multivoles pour atteindre un taux de transfert soutenue 15 à 18 Mo/s entre le système Raid et le serveur.