Aloha,
Chez Neutrinet (une petite association belge) on a eu cette réflexion que nous avons documentée ici : https://wiki.neutrinet.be/fr/rapports/2021/07-04. Je pense que pour la plupart d'entre vous, on enfonce des portes ouvertes :)

Chez nous, on utilise VictoriaMetrics (https://victoriametrics.com) pour stocker les métriques au format Prometheus. Ce choix est dû que l'on voulait garder les métriques sur du temps long et pas spécialement sur du NVMe. Avec Prometheus vanilla, on avait de la corruption due à la volumétrie, la lenteur des disques et le manque de RAM.

Pour récupérer et envoyer les métriques, on passe en mode push et non pull, avec un VMAgent sur chaque machine que l'on monitore qui pousse sur le VictoriaMetrics. Ceci a comme avantage de sécuriser un endpoint et d'avoir les démons locaux aux machines qui écoute sur 127.0.xx.1. Si jamais l'endpoint de VictoriaMetrics n'est pas disponible un certain temps, les VMAgent conserve les métriques jusqu'au moment où la communication est rétablissement.

On a aussi un LibreNMS mais je ne suis pas sûr de le conserver, car les infos que l'on regarde dedans pourrait être lu dans un Grafana, même chose pour la Weathermap.

Pour les logs nous sommes en train d'expérimenter OpenObserve (https://openobserve.ai) et récemment, ils ont aussi ajouté la possibilité de récupérer des métriques au format Prometheus. L'avantage pour moi de cette solution, c'est le stockage des données sur un S3 et une alternative a la stack ELK.

Ce qui nous a pris le plus de temps, c'est la construction des tableaux de bord dans Grafana une fois que l'on sort de ceux tout fait.
Pour les alertes, nous avons aussi pris du temps, mais nous nous sommes aidés de ceci : https://samber.github.io/awesome-prometheus-alerts/.

Bien à toi,
Tharyrok

On 30/10/23 20:33, Jarod G. via FRsAG wrote:

Holà la liste,

on est en train de réfléchir à la question des supervisions pour une petite infra qui peut être amenée à évoluer.

Je dit "des" car on remarque vite que un outil tout en un qui fait tout correctement, bah ça existe tout simplement pas.

On réfléchissait à monter donc au moins deux sups.

Une sup "infra" qui fait uniquement du SNMP/ICMP pour tout ce qui est réseau/serveurs/vm et une sup "applicative" qui elle va gérer le reste (état nginx, systemd, etc...).

Du coup on est en recherche d'idées, sur la partie "infra" on est plutôt familier avec Observium et LibreNMS même si on est pas fermé à autre chose.
Quand à la partie "applicative" c'est un peu le flou (mix grafana+influx ?), surtout sur la partie alertes.

Avez vous des retex sur des solutions que vous utilisez déjà ?
(ou des noms de solutions "entendues" mais jamais testées)

Notre seule et unique contrainte dans les solutions est que ça a besoin d'être gratuit (bonus si c'est libre).

Jarod G.

_______________________________________________
Liste de diffusion du %(real_name)s
http://www.frsag.org/