Re: [FRsAG] Retour d'expérience: panne du DC Level3

28 Nov 2014

      Salut Xavier,
Le 28 novembre 2014 10:58, Xavier Beaudouin kiwi@oav.net a écrit :
...
Sympa, tu as de la chance car ton voisin n'en as pas eu. Le fait que des
APC ont cramé c'est soit qu'il y a eu un retour de courant important, soit
qu'ils étaient trop vieux.
voir plus bas ;)
...
Idem, > 55°C dans une baie, c'est que tu as un pb.
c'est lors de la panne de clim d'octobre 2013 que la température a monté
drastiquement. Suite à quoi j'ai perdu les FCX et PDU un par un sur 14 mois
donc ...
...
Effectivement, et je dirais même plus : les économies faites quand on est
dans un seul datacenter sont des fois, dans des cas où les clients sont sur
l'internet, des fausses économies. Vaux mieux avoir un systèmes redondonant
sur 2 DC quittes a avoir a tenir une charge moindre que faire de la perte
de CA.
on est déjà sur 2 sites, mais on m'a coupé les vivres en route suite à un
changement de DG, je n'ai donc pas pu finir le travail ...
...
D'ailleurs vu que tu as 3h de pertes sèche de CA, tu peux donc calculer
combien d'argent a été perdue et donc calculer si avoir un second DC serait
une bonne idée.
Clairement, 3H de perte sèche de CA ne représente pas ce que coûterait un
2eme DC (avec liens redondés etc) par contre si on ajoute les coûts des
conséquences sur l'image, les partenaires etc ... ça n'a (presque) pas de
prix !
...
A ajouter dans ce cas : être maitre de son routage. Ca aide beaucoup pour
faire des choses fiables.
C'était prévu en 2014 puis abandonné pour les mêmes raisons. Mais c'est
cool, je vais pouvoir relancer ce projet aussi :)
...
Mon expérience avec nos amis les DAF, il faut souvent qu'ils se trouvent
au pied du mur pour qu'ils agissent, et en général n'écoutent jamais les
responsables / sysadmin senior / guru qui leur disent : si on fait pas ça
on vas se payer un mur.
Dans la boite où je suis, à chaque fois qu'ils se payent un mur ils font
ce que je leur avais dit plusieurs mois ou années avant, comme par ex :

changer / entretenir la clim du DC au bureau
bouger les serveurs sensible dans un vrai DC (avec onduleurs / groupe et

double clim)

virer colt (désolé s'il y a des gens de colt içi) et prendre un

opérateur qui facture pas 1K€ une connectivité a 10Mbps par mois

dégager les tunnel IPSEC + ADSL boxalacon et coller des SDSL
tuer les serveurs legacy asap (qui datent de 2003 et qui sont pas à

jour) et migrer sur des solutions opensource/logicielles qui peuvent être
maintenues

avoir du spare de switch...
le backup ... :)

...
En deux ans, chaque point évoqués ont bougés quand ils se sont payés un
mur, malgré les informations claires et précises du mur qui arrive
"demain"...
Même expérience, à chaque fois qu'on s'est payé le mur les choses ont
évoluées. Aujourd'hui mon patron est tellement sensibilisé aux backups que
c'est quasiment la 1ère chose qu'il me demande en cas de nouveau projet, et
qu'on a des backups sur 4 sites :)
Suite à une panne de load-balancers sur des R200, j'ai pu m'équiper de
ServerIron 4G (8x plus cher) qui encaisse toutes les pannes.
Suite à une autre panne pour des filers sous-dimensionnés, j'ai pu
m'équiper de SAN EqualLogic (6x plus cher). On n'a plus aucun problèmes et
ce sont ces systèmes qui redeviennent UP les premiers, sans corruption de
données, bref sans aucune intervention ...
Parce que dans le cas de solutions, je n'ai plus le droit à l'erreur, je
dois m'équiper de matériel de bien meilleure qualité que ce que j'avais
préconisé avant la panne. Et donc plus couteux, là encore paradoxal ...
...
Je ne sais pas si c'est un standard des entreprises francaises, mais hélas
c'est quelque chose que je vois (et pas que moi) de plus en plus souvent
dans la gestion des risques informatiques. Souvent l'informatique est prise
comme un outil et les DAF sont incapables de comprendre pourquoi on demande
une enveloppe de 20K€ pour sécuriser un truc "qui marche déjà bien comme
ça"...
Parce qu'on demande aux DAF de faire des économies et que c'est un moyen
simple d'y parvenir à court terme :-(
-- 
Greg

2025

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

Re: [FRsAG] Retour d'expérience: panne du DC Level3