Bonjour,

A noter qu'avec un backend Ceph, il se peut que l'algo attende qu'un OSD soit réellement HS (pas juste une (micro-)coupure) pour commencer à rebalancer les données sur les noeuds restant. Il se peut donc que ça soit la cause de ce délais, en particulier si vous avez beaucoup de contenu à rebalancer, avec des grosses VMs en terme de stockage.

Rémy.

Le 29/06/2020 à 03:44, Clément Gineste a écrit :

Il me semble que Xen supporte depuis longtemp le live migration d'une VM avec sa mémoire
Le mer. 17 juin 2020 à 20:02, Benoit MOREAU via FRsAG <frsag@frsag.org> a écrit :
Salut,

Je ne comprends pas trop le problème. Normalement, au moment où tu isoles le nœud en débranchant ses rings, il faut compter environ 2 minutes avant que le cluster lance sa procédure de failover.
Le nœud isolé va stopper les VM pour éviter le "split-brain", et le reste du cluster va relancer les VM qui ont été configuré en HA sur les nœuds ayant été configuré pour recevoir les VM.

A priori, le temps de bascule est hard-codé. Selon moi, ce temps est raisonnable, pour éviter de relancer inutilement les VM en cas de coupure réseau passagère.

A noter que sans configuration manuelle, il faut que plus de 50% des nœuds du cluster soit vivant pour que celui-ci lance la procédure de failover.

Je ne sais pas si j'ai répondu a ta question, mais je reste disponible si tu as d'autres questions sur Proxmox.

Cordialement,
Benoit MOREAU

On 16/06/2020 22:55, Racamier Stéphane wrote:
Bonsoir le groupe,

Je test actuellement un cluster Proxmox 6.4 avec un stockage hyper convergé ceph composé de 3x6 osd (HDD) avec deux carte gigabit en protocole LACP actif, 1 carte sur le ring0 et 1 sur le ring1.

La plateforme de test utilisé des HP proliant dl380 g7.

Ma préoccupation principale est de réussir à migrer mes VMs sans interruption de service si le nœuds qui exécute se voit brutalement stoppé. Pour simuler cette panne je débranche l'interface ring0 et 1.

Petit problème mes VMs se voient stoppé brutalement au décompte du watchdog, l'interruption est bien trop longue pour des services en production.

Existe il un moyen de palier ce problème ?

Cdlt.
_______________________________________________
Liste de diffusion du FRsAG
http://www.frsag.org/
_______________________________________________
Liste de diffusion du FRsAG
http://www.frsag.org/
_______________________________________________
Liste de diffusion du FRsAG
http://www.frsag.org/

-- 
Dernat Rémy
IT Infrastructure Engineer, CNRS
MBB Platform - ISEM Montpellier