Le 26/08/2017 à 10:46, ML a écrit :
En fait, j'ai carrément abandonné le monitoring, pour ne faire que de la métrologie avec des seuils sur les métriques appropriées (disk free, taux de 5xx, you name it). Tant qu'à emmerder les serveurs pour savoir s'ils vont bien, autant mesurer et collecter des métriques. On peut tout transformer en chiffre mesurable (nombre de noeuds dans un cluster, RTT avec un serveur) et alerter si les métriques n'arrivent plus.
J'ai quelques stacks qui sont surveillées par influx/grafana et jusqu'à présent, je n'ai jamais ressenti le besoin de (re)mettre en service un outil de monitoring dédié. IMHO, c'est bien plus souple en utilisant la métrologie pure. C'est pluggué sur email/slack/sms et ça va plutôt bien.
Par contre, pour le coup, il faut monitorer la métrologie :D Un uptimerobot/statuscake/pingdom suffisent pour ça.*
par curiosité, combien de temps tu as passé pour déployer tout ça ?
C'est assez rapide de déployer un influxdb et un grafana pour recevoir les métriques. Sur chaque serveur, c'est telegraf qui collecte et balance à influx. La aussi le déploiement est très rapide (j'utilise ansible mais même à la main, ça prend 10 minutes conf incluse). En général je déploie le plugin statsd de telegraf qui permet à des scripts externes (ou du code applicatif) d'envoyer facilement des métriques qui ne sont pas collectées nativement par telegraf (la conf est un peu plus trial & error pour cette partie, à cause du système de templating un peu abscons).
Le plus long, de loin, c'est de mettre en place les dashboards qui vont bien dans grafana, et de créer les alertes. C'est assez itératif notamment pour mettre les bon seuils sur les alertes.
@olivier
Alerte de mises à jour des firmwares du hardware des machines ?
Un outil de métrologie va exécuter un check pour ça. Au final, comme le dit Jean, on peut tout transformer en nombre; le check en question peut renvoyer 1 si des updates sont dispo (voire N=le nombre d'updates). Au final, c'est le même usage mais ça permet de n'avoir qu'une plateforme (metrologie) au lieu de deux (metro + monitoring). Le truc qui m'enniue avec la métrologie, c'est qu'en général, on en profite pas pour collecter des métriques utiles (à une fréquence utilisable).
@jean
Le vrai soucis que je vois n'est pas technique (car au final en effet tout peux être vue comme une forme de métrologie), mais plus humain: afficher des courbes c'est joli/vendeur/rassurant, mais ça> n'aide pas l'utilisateur final à comprendre ce qu'il voit.
Oui, tout à fait. Dans mon cas, je suis le seul utilisateur effectivement. Grafana offre pas mal de possibilités de documentation des dashboards (popups d'help, links, ...) ou des affichages différents (singlestat avec des mappings value -> text). Mais oui, ça reste probablement limité à une team technique de supervision, pas un client final.
A+ -- M