En quoi le quorum est-il critique dans ce cas ?
tu as besoin du quorum pour les moniteurs. (3 moniteurs donc).
size = 2, min size = 1 -> c'est pour les osd uniquement.
en gros, avec 2 monitor, si tu en as un qui est down, tu perd le quorum : le cluster passe en readonly
c'est pour eviter les split-brains.
les clients, ainsi que les osd sont connectés en permanence aux monitors pour voir l'etat du cluster, avoir la map avec les osd down/up, pour injecter tout ca dans l'algo crush pour savoir où lire et ecrire. Imagine le bordel si la moitié des clients/osd voient 1 monitor, et l'autre moitié l'autre monitor.
----- Mail original ----- De: "Julien Escario" julien.escario@altinea.fr À: "French SysAdmin Group" frsag@frsag.org Envoyé: Dimanche 20 Septembre 2020 21:49:40 Objet: Re: [FRsAG] Proxmox avec gros uptime = problèmes ?
Le 18/09/2020 à 11:22, Grosjean Cyril a écrit :
Le ven. 18 sept. 2020 à 11:11, Pierre DOLIDON <sn4ky@sn4ky.net mailto:sn4ky@sn4ky.net> a écrit :
de mémoire, ceph sur 2 noeuds, c'est pas possible ? (puisque c'est un cluster... quorum toussa toussa).
ll faut 3 noeuds pour les monitors/managers, mais ton 3ème noeud pour les monitors/manager peuvent être sur un autre site, en standalone (un peu comme un arbitre dans un SAN bi-site synchrone). Le cluster d'OSD, si bien configuré peut supporter la perte d'un noeud.
Pas mal de retours intéressants sur cette question de Ceph avec deux noeuds. Je voulais justement faire un lab pour voir ce que ca donne en remplacement d'un cluster DRBD avec deux noeuds.
En 'théorie', avec deux nodes, quatre OSD (deux sur chaque node), deux mon+mgr (un sur chaque node), size = 2, min size = 1.
En gros, un RAID over Ethernet puisque chaque PG sera sur chaque node.
Si on perd TOTALEMENT un node : pas d'impact, et rebalance au redémarrage du node H.S
Si on perd le réseau entre les deux (c'est toujours le scenario stressant) : il se passe quoi exactement ?
En partant du principe que chaque VM a ses propres objects (aka blocks) : je ne vois pas pourquoi il y aurait plus grave comme soucis qu'un resync au moment où le réseau revient ? En quoi le quorum est-il critique dans ce cas ?
Je n'ai pas osé le test encore, je suis peut être complètement à côté de la plaque ...
Merci de vos lumières, Julien _______________________________________________ Liste de diffusion du FRsAG http://www.frsag.org/