Le 25/06/2021 à 17:50, Raphael Mazelier a écrit :
On 25/06/2021 16:33, Mathieu Corbin wrote:
Je pense qu'il est dans tous les cas important de décorréler ce qui génère l'alerte (Icinga ou autre) de ce qui gère l'alerte ensuite (réveiller les bonnes personnes, gestion du calendrier/des overrides, déduplication, auto acquittement...).
+100.
Gérer un on-call sans ce type d'outil c'est quand meme vraiment painful (PD, VictorOps ou autres).
Ok, merci du retour. On va faire un test de PagerDuty du coup. Mais dépendre d'un service tiers, aussi fiable soit-il, me gêne quand même pour quelque chose d'aussi critique.
Personne n'a d'équivalent à PargerDuty en self-hosted ?
Pour le moment, nous avons un Icinga2 chez nous pour le principal et un secondaire chez un tiers pour surveiller le principal (et vice versa) + 2/3 équipements critiques type routeurs de bordure. Ca fonctionne plutôt bien depuis 6 ans.
Le double monitoring comme tu le mentionnes n'est pas vraiment intéressant car tu seras coincé le jour où tu voudras faire des alertes sur les métriques de Telegraf.
C'est exactement mon soucis. En plus de consommer de la ressource pour récupérer deux fois le même métrique : BP, CPU, etc ...
Je suis surpris du peu de contributions : question mal posée ou nous sommes aussi peu à poser ces problématiques sur la table ?
Bonne semaine,
Julien