Bonjour à tous,
On arrive pas à se décider sur le choix de stockage de logs et de métrique dans le cadre de la centralisation de logs syslog et des métriques récupérée par Prometheus.
Le contexte est plusieurs centaines de systèmes (99% Debian, 1% autre (BSD, appliance).
Jusqu'à présent on avait un serveur syslog qui enregistrait pour l'archivage légal et décentralisé les logs des serveurs avec rotation et tout ce qui va bien.
Dans le cadre de la mise en place de Prometheus comme nouvelle supervision, on voit clairement l'intérêt de venir chercher des éléments dans les logs pour faire de la remontée de métrique additionnel en plus des exporters.
L'idée est d'aller vers un Prometheus, Grafana et Loki mais en ayant testé différentes bases de stockage métrique et logs on se rend compte que la place occupée et les ressources pour gérer tout cela sont plus que conséquentes.
On s'oriente vers un découpage pour les logs et métrique long terme et ceux à exploiter sur une période < 1 semaine mais ça parait lourd comme organisation et loin du KISS avec les risques de perte de donnée.
Ce que j'aimerais dans l'idéal :
- partie log exploitation non compressée sur une période de quelques jours pour corréler avec les métriques, par la suite c'est compressé et archivé avec éventuellement la possibilité d'aller revoir un évènement en arrière
- partie métrique avoir toutes les métriques sur quelques heures, 24h max, puis façon rrdtool supprimer les métriques en faisant une moyenne et/ou min/max sur des périodes de 5 min puis 15 ... Là pas de retour arrière ce qui est supprimé est définitif.
En mode métrologie si on détecte à postériori un changement de tendance même sur une moyenne, pouvoir réouvrir les logs associés à cet espace de temps nous parait important.
Et vous vous utilisez quoi comme base de donnée de stockage pour les métriques Prometheus et pour l'exploitation des logs sans faire exploser les serveurs avec des To de données?
Bonne fin de journée