Forum |  HardWare.fr | News | Articles | PC | Prix | S'identifier | S'inscrire | Aide | Shop Recherche
1424 connectés 

 


 Mot :   Pseudo :  
 
 Page :   1  2  3  4  5  6  7  8  9  10  11  12  13  14  15  16  17  18  19
Page Suivante
Auteur Sujet :

Beyond the first mile - Le topic du réseau des réseaux

n°997960
bulldozer_​fusion
rip Mekthoub
Posté le 09-11-2017 à 11:33:25  profilanswer
 

Reprise du message précédent :
http://www.zdnet.fr/actualites/ovh [...] 859750.htm
http://www.lefigaro.fr/secteur/hig [...] is-ovh.php
c'était sport ce matin :o


Message édité par bulldozer_fusion le 09-11-2017 à 11:37:27

---------------
feed-back : http://forum.hardware.fr/forum2.ph [...] nojs=0#bas
mood
Publicité
Posté le 09-11-2017 à 11:33:25  profilanswer
 

n°997967
Sly Angel
Architecte / Développeur principal
Posté le 09-11-2017 à 11:47:47  profilanswer
 

A un moment, le low cost a un prix, aujourd'hui c'est le jour où faut le payer :D


---------------
Fan et séquestrateur de Deprem De Prel Photographie, célèbre photographe de tuning automobile :o
n°997968
rootsayen
Jungle Cat
Posté le 09-11-2017 à 11:49:31  profilanswer
 

C'est ce que je dis sur les réseau sociaux, certains n'apprécient pas :o
 
Bon malgré tout, ils ont eu un max de poisse d'après ce que je lis :D


---------------
"Being solitary is being alone well; being alone luxuriously immersed in doings of your own choice, aware of the fullness of your own presence rather than the absence of others."
n°998033
bulldozer_​fusion
rip Mekthoub
Posté le 09-11-2017 à 19:04:27  profilanswer
 

rootsayen a écrit :

C'est ce que je dis sur les réseau sociaux, certains n'apprécient pas :o

 

Bon malgré tout, ils ont eu un max de poisse d'après ce que je lis :D


Je crois qu'on peut pas cumuler plus d'emmerdes :lol:


---------------
feed-back : http://forum.hardware.fr/forum2.ph [...] nojs=0#bas
n°998037
l0g4n
Proxmox&Beer
Posté le 09-11-2017 à 19:16:22  profilanswer
 

A un moment, si tu met tous tes oeufs dans le même cloud, bah c'est un peu de ta faute si quand il casse t'es impacté :/


---------------
Le mieux n'est pas de savoir, c'est que les autres pensent que tu saches, après tu peux enfin apprendre !
n°998038
Djeng0
Hash & Frères
Posté le 09-11-2017 à 19:20:03  profilanswer
 

Citation :

Bonjour,
Ce matin, nous avons eu un incident sur le réseau optique qui interconnecte notre site de Roubaix (RBX) avec 6 des 33 points de présence (POP) de notre réseau : Paris (TH2 et GSW), Francfort (FRA), Amsterdam (AMS), London (LDN), Bruxelles (BRU).

 

Le site RBX est connecté à travers 6 fibres optiques à ces 6 POP : 2x RBX<>BRU, 2x RBX<>LDN, 2x RBX<>Paris (1x RBX<>TH2 et 1x RBX<>GSW). Ces 6 fibres optiques sont connectées aux systèmes de nœuds optiques qui permettent d’avoir 80 longueurs d’onde de 100Gbps sur chaque fibre optique.

 

Pour chaque 100G connectés aux routeurs, nous utilisons 2 chemins optiques qui sont géographiquement distincts. En cas de coupure de fibre optique, le fameux « coup de pelleteuse », le système se reconfigure en 50ms et tous les liens restent UP. Pour connecter RBX aux POP, nous avons 4.4Tbps de capacité, 44x100G : 12x 100G vers Paris, 8x100G vers London, 2x100G vers Bruxelles, 8x100G vers Amsterdam, 10x100G vers Frankfurt, 2x100G vers DC GRA et 2x100G vers DC SBG.

 

A 8h01, d’un coup, l’ensemble des liens 100G, les 44x 100G, ont été perdus. Étant donné le système de redondance que nous avons mis en place, l’origine du problème ne pouvait pas être la coupure physique de 6 fibres optiques simultanément. Nous n’avons pas pu faire les diagnostiques sur les châssis à distance car les interfaces de management étaient figées. Nous avons été obligés d’intervenir directement dans les salles de routage, pour faire les manipulations sur les châssis : déconnecter les câbles entre les châssis puis faire redémarrer le système et enfin seulement faire les diagnostiques avec l’équipementier. Les tentatives de redémarrage du système ont pris beaucoup de temps, car chaque châssis a besoin de 10 à 12 minutes pour démarrer. C’est la principale raison de la durée de l’incident.

Le diagnostique : Toutes les cartes transpondeurs que nous utilisons, ncs2k-400g-lk9, ncs2k-200g-cklc, sont passées en état « standby ». L’une des origines possible d’un tel état est la perte de configuration. Nous avons donc récupéré le backup et remis en place la configuration, ce qui a permis au système de reconfigurer toutes les cartes transpondeurs. Les 100G dans les routeurs sont revenus naturellement et la connexion de RBX vers les 6 POP a été rétablie à 10h34.

 

Il s’agit clairement d’un bug software sur les équipements optiques. La base de données avec la configuration est enregistrée 3 fois et copiée sur 2 cartes de supervision. Malgré toutes ces sécurités, la base a disparu. Nous allons travailler avec l’équipementier pour trouver l’origine du problème et les aider à fixer le bug. Nous ne remettons pas en cause la confiance avec l’équipementier, même si ce type de bug est particulièrement critique. L’uptime est une question de design qui prend en compte tous les cas de figure, y compris quand plus rien ne marche. Le mode parano chez Ovh doit être poussé encore plus loin dans l’ensemble de nos designs.

 

Les bugs ça peut exister, les incidents qui impactent nos clients non. Il y a forcement une erreur chez Ovh puisque malgré tous les investissements dans le réseau, dans les fibres, dans les technologies, nous venons d’avoir 2 heures de downtime sur l’ensemble de nos infrastructures à Roubaix.

 

L’une des solutions est de créer 2 systèmes de nœuds optiques au lieu d’un seul. 2 systèmes, cela veut dire 2 bases de données et donc en cas de perte de la configuration, un seul système est en panne. Si 50% des liens passent par l’un des systèmes, aujourd’hui, nous aurions perdu 50% de la capacité mais pas 100% de liens. C’est l’un des projets que nous avons commencé il y a 1 mois, les châssis ont été commandés et nous allons les recevoir dans les prochains jours. Nous pourrons commencer les travaux de configuration et migration sous 2 semaines. Vu l’incident d’aujourd’hui, ce projet devient prioritaire, pour l’ensemble de nos infrastructures, tous les DCs, tous les POPs.

 

Dans le métier de fournisseur des infrastructures Cloud, seul ceux qui sont paranos durent. La qualité de service est une conséquence de 2 éléments. Tous les incidents anticipés « by design ». Et les incidents où nous avons appris de nos erreurs. Cet incident là nous amène à mettre la barre encore plus haut pour s’approcher du risque zéro.

 

Nous sommes sincèrement désolés pour les 2H33 minutes de downtime sur le site RBX. Dans les prochains jours, les clients impactés vont recevoir un email pour déclencher l’application des engagements SLA.

 

Amicalement
Octave


http://travaux.ovh.net/?do=details&id=28244
+ l'incident électrique à Strasbourg, c'est du costaud niveau poisse :D


Message édité par Djeng0 le 09-11-2017 à 19:22:00

---------------
Commande groupée Fidget Cube, le SFBA ultime | Je déconseille la compagnie aérienne Pegasus, son service client est mauvais, peu réactif, ment au cl
n°998041
bulldozer_​fusion
rip Mekthoub
Posté le 09-11-2017 à 19:35:26  profilanswer
 

C'est qui l'équipementier sur la partie optique ? :O


---------------
feed-back : http://forum.hardware.fr/forum2.ph [...] nojs=0#bas
n°998044
l0g4n
Proxmox&Beer
Posté le 09-11-2017 à 19:38:40  profilanswer
 

ncs2k-400g-lk9 et ncs2k-200g-cklc c'est des refs Cisco :jap:


---------------
Le mieux n'est pas de savoir, c'est que les autres pensent que tu saches, après tu peux enfin apprendre !
n°998048
XaTriX
Now we are all sons of bitches
Posté le 09-11-2017 à 19:58:48  profilanswer
 

44 100G :D


---------------
eargasm § • Topics JV Rage Nostalgie • Discu Expatriés Toulouse Ryanair
n°998049
XaTriX
Now we are all sons of bitches
Posté le 09-11-2017 à 20:01:05  profilanswer
 

l0g4n a écrit :

A un moment, si tu met tous tes oeufs dans le même cloud, bah c'est un peu de ta faute si quand il casse t'es impacté :/


+1


---------------
eargasm § • Topics JV Rage Nostalgie • Discu Expatriés Toulouse Ryanair
mood
Publicité
Posté le 09-11-2017 à 20:01:05  profilanswer
 

n°998050
bulldozer_​fusion
rip Mekthoub
Posté le 09-11-2017 à 20:08:13  profilanswer
 

C'est plus ce que c'était cisco :O


---------------
feed-back : http://forum.hardware.fr/forum2.ph [...] nojs=0#bas
n°998057
rootsayen
Jungle Cat
Posté le 09-11-2017 à 20:53:00  profilanswer
 

Certains diront que ça n'a jamais été ce qu'ils paraissent être :o


---------------
"Being solitary is being alone well; being alone luxuriously immersed in doings of your own choice, aware of the fullness of your own presence rather than the absence of others."
n°998085
Sly Angel
Architecte / Développeur principal
Posté le 10-11-2017 à 02:42:24  profilanswer
 

bulldozer_fusion a écrit :

C'est qui l'équipementier sur la partie optique ? :O


 
Donc y'a un équipement pour faire la redondance entre les 2 liens ? C'est un SPOF ça non ? C'est bien beau que ça serve à rendre invisible une coupure fibre, c'est comme les STS électrique, si ça tombe, ça te fait une belle jambe, tu perds les 2 arrivées.
 

bulldozer_fusion a écrit :

C'est plus ce que c'était cisco :O


 
Sur ce type d'équipements, c'est quand même bien meilleur que les bugs catastrophiques chez Brocade ou les quelques bugs graves chez Juniper parfois. Touts les équipementiers ont des bugs, Cisco y compris. L'intelligence en général c'est d'utiliser les boîtes dans leur cadre de fonctionnement classique sans cumuler les fonctions et sans faire des trucs exotiques, afin d'éviter les cas foireux sujets à faire ressortir des bugs.  
 
Ce ne serait pas la première fois qu'OVH sort des standards dans l'utilisation de ses équipements.
 

rootsayen a écrit :

Certains diront que ça n'a jamais été ce qu'ils paraissent être :o


 
Oui, comme toujours dans les guerres de clocher :D Je n'aime pas Cisco (la boîte, la politique, les méthodes), mais en terme d'équipements pur réseau, je les choisis si mon premier objectif est la fiabilité du fonctionnement.


---------------
Fan et séquestrateur de Deprem De Prel Photographie, célèbre photographe de tuning automobile :o
mood
Publicité
Posté le   profilanswer
 

 Page :   1  2  3  4  5  6  7  8  9  10  11  12  13  14  15  16  17  18  19
Page Suivante

Aller à :
Ajouter une réponse
 

Sujets relatifs
Problème intermittent de connexion InternetPb reseau ; 1 connexion pc->lente les autres OK
Problème périphériques réseaux (LaBox Numéricable)Demarer pc a distance sans Wake on Lan mais par reseau celullaire
Aucun reseau sans fil detectéProblème d'accès entre 2 sous réseaux
Débit instable sur reseau, lent pour première opération puis rapide !Débit reseau instable: Lent première opération puis rapide
[résolu jesaispascomment]partages réseau hs (mais le reste fonctionne)Sécuriser un réseaux pour la location
Plus de sujets relatifs à : Beyond the first mile - Le topic du réseau des réseaux



Copyright © 1997-2016 Hardware.fr SARL (Signaler un contenu illicite) / Groupe LDLC / Shop HFR