Bonjour,
Je n'ai pas encore reçu de RFO sur cette panne électrique donc je ne donnerai pas de détails sur ce qui s'est passé. C'est la 2ème panne majeure sur ce DC en 14 mois: en octobre 2013 c'est la clim qui avait arrêtée de fonctionner...
Petite récap des conséquences physiques :
- 2 PDU APC ont cramé
- l'ensemble de mes équipements a redémarré au moins une fois
- une bonne dizaine de serveurs ont redémarrés électriquement et aucun d'entre eux n'a causé de problèmes
- un voisin, je ne sais pas qui, a perdu 12 serveurs qui ne redémarreront jamais ...
Au final, j'aurais perdu peu de matériel, et heureusement parce que je n'avais pas assez de spares.
Ce n'est pas ma première panne datacenter, mais c'est aussi dans ce cas qu'on peut juger de la qualité des constructeurs :
- Serveurs Dell, rien à dire à partir des R320. Les vieux 1950 et 2950 tiennent toujours la route comme au début. La gamme des R200 est insuffisante en terme de qualité physique.
- Brocade : il faut du haut de gamme. Le milieu de gamme ne tient pas les montées de température. Par exemple, mes vieux FESX de 8 ans sont monté à 105° et fonctionnent toujours contrairement aux FCX de 3 ans qui ont tous arrêter de fonctionner. Mais un FESX coute le double d'un FCX ...
- APC : c'est sensé être du haut de gamme et pourtant ... ils sont trop sensible à la température et arrêtent de fonctionner les un après les autres, à la moindre hausse de T° ... (Je n'ai que du switched)
- KVM Dell (en réalité du Advocent) : RAS.
Maintenant au niveau business :
- on a perdu 3h d'activité, perte sèche de CA
- l'activité est revenue complètement à la normale en ~8h
Ce qui ramène aux conclusions stratégiques et managériales :
- on est en plein dans le "nobody known what I do until I don't do it", du coup quand tout fonctionne l'équipe ops se retrouve à faire de plus en plus autre chose que son métier, comme du développement
- les Ops sont tout de même responsables car ... c'est dans leur responsabilité
- les économies faites sur le matériel coûtent finalement bien plus cher ...
Tout ça ce sont des évidences auxquelles nous avons été et nous sommes confrontés régulièrement. Cette panne m'aura fait prendre quelques cheveux blancs supplémentaires, et m'aura donné l'occasion de croiser le regard déçu de mon patron ... mais aussi de redéfinir les priorités.
Même quand tout fonctionne, les sysadmin doivent faire évoluer une archi, et pas que pour des raisons de sécu ou de perfs.
Donc la question du trolldi est: est-ce qu'il est nécessaire d'avoir de temps en temps une grosse panne à gérer ? C'est paradoxale ...
Greg