La question est bien posée je pense mais il y a peu de solution sur étagère sauf peut être https://supervision-clever.fr/supervision-alarmes-gestion-astreintes/ dont je ne suis ni utilisateur, ni revendeur et encore moins actionnaire (je tiens à le préciser :)
Se faire réveiller implique de faire sonner un tel il n'y a donc pas beaucoup de choix: soit tu te fabriques une pondeuse d'appel avec ton PABX, soit tu utilises une solution comme PagerDuty ou autre ou alors et ce que nous on fait: on détourne une solution de marketing tel pour lui faire appeler ton astreinte.
Pour ce qui est de s'appuyer sur un tiers, eh bien c'est une question de feeling. Moi je dis que faire appel à une solution spécialisée faite par des gens dont c'est le métier et le gagne pain, ça donne quand même un certain niveau de rassurance. Sans compter que si tout est vraiment en rade chez toi, y compris ta sup et ta solution d'alerte, avoir ce petit bout de truc à l'extérieur ça peut aider !
Bonne recherche,
Matthieu
Le lun. 28 juin 2021 à 09:43, Julien Escario julien.escario@altinea.fr a écrit :
Le 25/06/2021 à 17:50, Raphael Mazelier a écrit :
On 25/06/2021 16:33, Mathieu Corbin wrote:
Je pense qu'il est dans tous les cas important de décorréler ce qui génère l'alerte (Icinga ou autre) de ce qui gère l'alerte ensuite (réveiller les bonnes personnes, gestion du calendrier/des overrides, déduplication, auto acquittement...).
+100.
Gérer un on-call sans ce type d'outil c'est quand meme vraiment painful (PD, VictorOps ou autres).
Ok, merci du retour. On va faire un test de PagerDuty du coup. Mais dépendre d'un service tiers, aussi fiable soit-il, me gêne quand même pour quelque chose d'aussi critique.
Personne n'a d'équivalent à PargerDuty en self-hosted ?
Pour le moment, nous avons un Icinga2 chez nous pour le principal et un secondaire chez un tiers pour surveiller le principal (et vice versa) + 2/3 équipements critiques type routeurs de bordure. Ca fonctionne plutôt bien depuis 6 ans.
Le double monitoring comme tu le mentionnes n'est pas vraiment intéressant car tu seras coincé le jour où tu voudras faire des alertes sur les métriques de Telegraf.
C'est exactement mon soucis. En plus de consommer de la ressource pour récupérer deux fois le même métrique : BP, CPU, etc ...
Je suis surpris du peu de contributions : question mal posée ou nous sommes aussi peu à poser ces problématiques sur la table ?
Bonne semaine,
Julien
Liste de diffusion du FRsAG http://www.frsag.org/