Bonjour.
Je suis un peu étonné de vos différentes conclusions sur Prometheus.
Je gère actuellement un architecture Prometheus de 10 serveurs prometheus (2 par DC + 2 Fédération). Cette stack collecte plus de 500k métriques chaque minutes et garde un historique de 90 jours. Les métriques proviennent de environs 230 instances AWS EC2, 2 cluster K8S, Cloudwatch et un certains nombre de service (Mysql, Mongo, Redis, etc..)
- Chaque API / APP fournit des métriques
- A chaque déploiement les dev peuvent mettre à jour leurs métriques métier
- L'alerting est aux petits oignons avec un CI/CD dédié permettant au dev de créer leur propre alerte sûr leur métrique métier.
- L'alerting comporte des règles sur le business (drop de vente, nb de panier abandonnés, baisse de recherche dans le moteur etc)
- Chaque squad reçois les alertes sur son channel slack
- L'infra et le business ont en plus des alerts pager duty
Pour l'archivage ou la rétention longue duré il existe différente solution que nous n'utilisons pas. La solution qui monte est
https://thanos.ioNous pensons créé un service d'extraction de quelques métriques via l'API prometheus afin d'archivage sous forme de fichier csv (github est pleins de piste pour cela)
Bref pour l'aspect monitoring Prometheus me semble un outil adapté.
Karles