Re: [FRsAG] Retour d'expérience: panne du DC Level3

28 Nov 2014

      Hello Greg,
...
Petite récap des conséquences physiques :

2 PDU APC ont cramé
l'ensemble de mes équipements a redémarré au moins une fois
une bonne dizaine de serveurs ont redémarrés électriquement et aucun d'entre eux n'a causé de problèmes
un voisin, je ne sais pas qui, a perdu 12 serveurs qui ne redémarreront jamais ...

Sympa, tu as de la chance car ton voisin n'en as pas eu. Le fait que des APC ont cramé c'est soit qu'il y a eu un retour de courant important, soit qu'ils étaient trop vieux.
...
Au final, j'aurais perdu peu de matériel, et heureusement parce que je n'avais pas assez de spares. 
Ce n'est pas ma première panne datacenter, mais c'est aussi dans ce cas qu'on peut juger de la qualité des constructeurs :

Serveurs Dell, rien à dire à partir des R320. Les vieux 1950 et 2950 tiennent toujours la route comme au début. La gamme des R200 est insuffisante en terme de qualité physique.
Brocade : il faut du haut de gamme. Le milieu de gamme ne tient pas les montées de température. Par exemple, mes vieux FESX de 8 ans sont monté à 105° et fonctionnent toujours contrairement aux FCX de 3 ans qui ont tous arrêter de fonctionner. Mais un FESX coute le double d'un FCX ...

Ils ont fait des efforts, j'ai eu des ServerIron XL qui ont arrêté de fonctionner a 62°C (le switch fonctionnais "a peu près, mais le LB L7 -> mort).
Ceci dit, si tu regardes les datasheets de Brocade ils sont clair au dessus de 55°C : c'est plus dans les specs, conclusion il faut des fois bien ranger ses baies.
...

APC : c'est sensé être du haut de gamme et pourtant ... ils sont trop sensible à la température et arrêtent de fonctionner les un après les autres, à la moindre hausse de T° ... (Je n'ai que du switched)

Idem, > 55°C dans une baie, c'est que tu as un pb.
...

KVM Dell (en réalité du Advocent) : RAS.

Maintenant au niveau business :

on a perdu 3h d'activité, perte sèche de CA
l'activité est revenue complètement à la normale en ~8h

Ce qui ramène aux conclusions stratégiques et managériales :

on est en plein dans le "nobody known what I do until I don't do it", du coup quand tout fonctionne l'équipe ops se retrouve à faire de plus en plus autre chose que son métier, comme du développement
les Ops sont tout de même responsables car ... c'est dans leur responsabilité
les économies faites sur le matériel coûtent finalement bien plus cher ...

Effectivement, et je dirais même plus : les économies faites quand on est dans un seul datacenter sont des fois, dans des cas où les clients sont sur l'internet, des fausses économies. Vaux mieux avoir un systèmes redondonant sur 2 DC quittes a avoir a tenir une charge moindre que faire de la perte de CA.
D'ailleurs vu que tu as 3h de pertes sèche de CA, tu peux donc calculer combien d'argent a été perdue et donc calculer si avoir un second DC serait une bonne idée.
A ajouter dans ce cas : être maitre de son routage. Ca aide beaucoup pour faire des choses fiables.
...
Donc la question du trolldi est: est-ce qu'il est nécessaire d'avoir de temps en temps une grosse panne à gérer ? C'est paradoxale ...
Mon expérience avec nos amis les DAF, il faut souvent qu'ils se trouvent au pied du mur pour qu'ils agissent, et en général n'écoutent jamais les responsables / sysadmin senior / guru qui leur disent : si on fait pas ça on vas se payer un mur.
Dans la boite où je suis, à chaque fois qu'ils se payent un mur ils font ce que je leur avais dit plusieurs mois ou années avant, comme par ex :
- changer / entretenir la clim du DC au bureau
- bouger les serveurs sensible dans un vrai DC (avec onduleurs / groupe et double clim)
- virer colt (désolé s'il y a des gens de colt içi) et prendre un opérateur qui facture pas 1K€ une connectivité a 10Mbps par mois
- dégager les tunnel IPSEC + ADSL boxalacon et coller des SDSL
- tuer les serveurs legacy asap (qui datent de 2003 et qui sont pas à jour) et migrer sur des solutions opensource/logicielles qui peuvent être maintenues
- avoir du spare de switch...
- le backup ... :)
En deux ans, chaque point évoqués ont bougés quand ils se sont payés un mur, malgré les informations claires et précises du mur qui arrive "demain"...
Je ne sais pas si c'est un standard des entreprises francaises, mais hélas c'est quelque chose que je vois (et pas que moi) de plus en plus souvent dans la gestion des risques informatiques. Souvent l'informatique est prise comme un outil et les DAF sont incapables de comprendre pourquoi on demande une enveloppe de 20K€ pour sécuriser un truc "qui marche déjà bien comme ça"...
</trolldi>
Xavier

2025

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

Re: [FRsAG] Retour d'expérience: panne du DC Level3