Hello,
J'avais eu l'occasion de parler de monitoring réseau à un FRnOG.
Petit contexte, une boite avec pas mal d'applicatif différent et un peu de réseau.
En gros, si on regarde ce qui se fait on a 3 type de supervision qui ce sont succèder :
* Le monitoring basé sur l'alerte, c'est ce qu'on trouve dans les nagios like. Un check associé a un host qui te renvois OK ou KO, avec une touche de graphing passé au forceps
* Le monitoring centré sur l'host mais basé sur les métrique : le meilleur exemple c'est zabbix, on collecte des métrique qu'on peut grapher sur un host, puis ont fait de l'alerting dessus :
** En pratique, il y a des soucis de monté a l'échelle, j'ai une boite en tête qui a taper le fond
** On peut sortir de l'host, mais c'est compliqué
* le monitoring applicatif centré sur la métrique : prom like/ influxdb
** c'est de préférence l'applicatif en elle même qui remonte ses métrique
** on peut coréler nimp avec nimp (donc top)
** centré sur le graphiing, l'alerting n'est qu'une conséquence des graph
Faire le changement de paradigme est vraiment long mais totalement faisable, la plupart des softs libres ont des exporter prometheus, et fournir au dev un framwork pour exporter de la métrique métier ça facilite la vie de ouf sur l'astreinte.
En 2023 sur une nouvelle infra, il faut clairement partir sur ce paradigme. Néanmoins un point important, si il faut faire de la rétention de métrique sur une longue durée prometheus n'est pas adapté ça et je suggére de regarder du coté de victoriametric ou de
thanos.io ou de mimir (soutenue par grafana).
A noté aussi que même pour le réseau il existe des exporteur pour parser du SNMP, et pour le ping il y a le blackbox exporter.
Alexis