Le 28/06/2021 à 10:04, Jeremie Le Hen a écrit :
Salut,
On Mon, Jun 28, 2021 at 09:40:50AM +0200, Julien Escario wrote:
Ok, merci du retour. On va faire un test de PagerDuty du coup. Mais dépendre d'un service tiers, aussi fiable soit-il, me gêne quand même pour quelque chose d'aussi critique.
Sans intention de t'offenser mais plutôt dans celle de parler clairement, cette remarque me paraît issue d'une doctrine plus que d'un raisonnement.
Tu as totalement raison, c'est plus de la doctrine que de l'argumentaire technique.
Le fait est que je n'ai pas de REX sur un service comme PagerDuty et que j'aimerais éviter de découvrir que mon infra est down et que je n'ai pas eu d'alerte parce que PD est down également au même moment.
La probabilité est très faible mais on fait bien du RAID6 (pardon RAIDZ2) non ?
Je m'explique. Si vous n'avez aucun fournisseur de services tiers pour le moment (e.g. cloud), alors je comprends que passer le cap soit un changement de doctrine.
Alors c'est un problème d'explication de ma part : je suis fournisseur de cloud. On a une infra, on la maîtrise même si pour certaines choses critiques, on est bien obligés d'avoir quelques VMs chez des tiers, notamment pour prévoir le cas extrême où tout est à plat.
Mais si on parle simplement de criticalité, je ne suis pas d'accord sur le fait de dire "pas de service tiers, c'est trop critique". Un service d'alerting doit avoir un minimum de dépendances, c'est une best practice. Mais le fait que ce soit outsourcé ou pas n'a pas de rapport.
Je ne connais pas PagerDuty, mais d'après leur nom, je dirais que l'alerting c'est leur coeur de métier. Donc premièrement, ils ont probablement beaucoup plus de monde travaillant sur leur service que ton équipe ne pourra jamais en mettre juste sur l'alerting. Ensuite, il est dans leur intérêt de fournir un service très fiable, il en va de la survie de la société.
Ce n'est pas vrai pour une société hégémonique sur un segment de marché. Passé une certaine taille, la survie n'est pas en jeu après un incident majeur (cf OVH, Cloudflare il y a quelques années ou fastly plus récemment).
Lorsque tu n'as pas le choix de la solution ou que le changement est impossible pour des raisons techniques, politiques ou legacy, tu fais jouer le SLA si tu en as un, tu grognes un coup, les presta te promet que ça ne se reproduira plus et tu relances tout comme avant.
Quand tu maîtrises ton truc, tu as effectivement plus de chances d'avoir un incident puisque ce n'est, par définition, pas ton cœur de métier mais tu connais les causes exactes et tu maîtrises ton plan de remédiation. Oui, tout ça devient philosophique ;-)
Je ne dis pas que tu dois prendre PagerDuty les yeux fermés, un peu de recherche sur leur fiabilité, les avantages et les inconvénients est nécessaire. Mais je voulais juste essayer de rectifier cette fausse best practice "pas de service tiers, c'est trop critique". Ca peut être le cas, mais c'est plus subtil.
En fait, je m'oriente vers un truc qui fini par devenir complexe : un monitoring de PagerDuty depuis mon infra et une infra tierce. Mais même soucis : qui va pousser l'alerte en cas de pépin ?
Bref, ça tourne en rond cette histoire. J'ai encore un peu de temps pour y réfléchir.
Julien