Le 03/01/2013 11:01, Artur a écrit :
Salut à tous et bonne année 2013 !
Certains d'entre vous m'ont conseillé en 2012 l'utilisation de Ganeti pour un petit cluster HA avec quelques VM. Lors de la lecture de la documentation je me suis rendu compte que Ganeti ne prenait volontairement pas en charge de failover automatique. Or je voudrais mettre en place une reprise automatique en cas de panne matérielle d'un noeud vers l'autre noeud sur le même principe que Heartbeat le fait sur un cluster que j'ai actuellement.
Connaitriez-vous des solutions pour mettre cela en oeuvre avec Ganeti ?
Salut et bonne année,
Quand un noeud est injoignable et que donc des machines sont marquées en ERROR_down elles sont redémarrées automatiquement chez nous. Si tu arrêtes manuellement une machine elle est marquée comme ADMIN_down. Je n'ai rien fait pour que cela se fasse tout seul. Par contre si on fait nous même des manips sur les nodes genre upgrade du système et qu'on fait une fausse manip elles ne sont pas redémarrées toute seule.
Au pire faudrait faire une taĉhe cron qui vérifie qu'aucune machine n'est en ERROR_down et la redémarre si besoin. Je pense devoir le faire pour une machine windows 2008 qui je ne sais pour quelle raison s'arrête toute seule. J'ai déjà été plusieurs fois en RDP quand cela se produit, on voit bien le logout et shutdown se lancer.
Une autre solution serait de voir avec les htools si le mécanisme de répartition de charge ne prend pas en compte les machines en état anormal.
Jusqu'à présent on avait pas besoin de cela car si une machine passait en erreur c'est qu'il y avait un souci sur cette dernière suffisamment important pour que le redémarrage automatique ne change rien.