Salut,
Certains d'entre vous m'ont conseillé en 2012 l'utilisation de Ganeti pour un petit cluster HA avec quelques VM.
Bon choix :)
Lors de la lecture de la documentation je me suis rendu compte que Ganeti ne prenait volontairement pas en charge de failover automatique.
Vrai, et ce n'est pas prêt d'être intégré.
Or je voudrais mettre en place une reprise automatique en cas de panne matérielle d'un noeud vers l'autre noeud sur le même principe que Heartbeat le fait sur un cluster que j'ai actuellement.
Connaitriez-vous des solutions pour mettre cela en oeuvre avec Ganeti ?
Lis la mailing list Ganeti-devel, il y a une RFC, des patchs et une discution à ce propos entre les devs. Cherche Corosync/pacemaker.
En gros: ça marchotte, c'est pas fini, et ce n'est pas conseillé "use it at your own risk".
Je n'ai pas testé personnellement, j'ai suivi le thread avec intérêt. Je suis interessé par tes retours si tu essaies.
Quand un noeud est injoignable et que donc des machines sont marquées en ERROR_down elles sont redémarrées automatiquement chez nous. Si tu arrêtes manuellement une machine elle est marquée comme ADMIN_down. Je n'ai rien fait pour que cela se fasse tout seul.
Ganeti-watcher, et c'est HS. Il veut un failover de node, pas un redémarage de la VM sur la même node.
Au pire faudrait faire une taĉhe cron qui vérifie qu'aucune machine n'est en ERROR_down et la redémarre si besoin.
C'est Ganeti watcher :)