Aloha,
Chez Neutrinet (une petite association belge) on a eu cette
réflexion que nous avons documentée ici :
https://wiki.neutrinet.be/fr/rapports/2021/07-04. Je pense que
pour la plupart d'entre vous, on enfonce des portes ouvertes :)
Chez nous, on utilise VictoriaMetrics
(https://victoriametrics.com) pour stocker les métriques au format
Prometheus. Ce choix est dû que l'on voulait garder les métriques
sur du temps long et pas spécialement sur du NVMe. Avec Prometheus
vanilla, on avait de la corruption due à la volumétrie, la lenteur
des disques et le manque de RAM.
Pour récupérer et envoyer les métriques, on passe en mode push et
non pull, avec un VMAgent sur chaque machine que l'on monitore qui
pousse sur le VictoriaMetrics. Ceci a comme avantage de sécuriser
un endpoint et d'avoir les démons locaux aux machines qui écoute
sur 127.0.xx.1. Si jamais l'endpoint de VictoriaMetrics n'est pas
disponible un certain temps, les VMAgent conserve les métriques
jusqu'au moment où la communication est rétablissement.
On a aussi un LibreNMS mais je ne suis pas sûr de le conserver,
car les infos que l'on regarde dedans pourrait être lu dans un
Grafana, même chose pour la Weathermap.
Pour les logs nous sommes en train d'expérimenter OpenObserve
(https://openobserve.ai) et récemment, ils ont aussi ajouté la
possibilité de récupérer des métriques au format Prometheus.
L'avantage pour moi de cette solution, c'est le stockage des
données sur un S3 et une alternative a la stack ELK.
Ce qui nous a pris le plus de temps, c'est la construction des
tableaux de bord dans Grafana une fois que l'on sort de ceux tout
fait.
Pour les alertes, nous avons aussi pris du temps, mais nous nous
sommes aidés de ceci :
https://samber.github.io/awesome-prometheus-alerts/.
Bien à toi,
Tharyrok
Holà la liste,
on est en train de réfléchir à la question des supervisions pour une petite infra qui peut être amenée à évoluer.
Je dit "des" car on remarque vite que un outil tout en un qui fait tout correctement, bah ça existe tout simplement pas.
On réfléchissait à monter donc au moins deux sups.
Une sup "infra" qui fait uniquement du SNMP/ICMP pour tout ce qui est réseau/serveurs/vm et une sup "applicative" qui elle va gérer le reste (état nginx, systemd, etc...).
Du coup on est en recherche d'idées, sur la partie "infra" on est plutôt familier avec Observium et LibreNMS même si on est pas fermé à autre chose.
Quand à la partie "applicative" c'est un peu le flou (mix grafana+influx ?), surtout sur la partie alertes.
Avez vous des retex sur des solutions que vous utilisez déjà ?
(ou des noms de solutions "entendues" mais jamais testées)
Notre seule et unique contrainte dans les solutions est que ça a besoin d'être gratuit (bonus si c'est libre).
Jarod G.
_______________________________________________
Liste de diffusion du %(real_name)s
http://www.frsag.org/