Personnellement j'ai déjà eu des barrettes de RAM défectueuses qui passaient les tests memtest. Il te reste la possibilité de les swapper sur une autre machine et voir ce que cela donne.
Sinon, il y a aussi la politique de l'autruche. Tu rachètes de la RAM si tu n'as pas de serveur de spare. Et si c'est pas la RAM, c'est que c'est la CM et qu'il faut la remplacer ^^
Vincent
Le 31/08/2011 15:09, Simon Morvan a écrit :
Le 17/08/2011 22:28, Simon Morvan a écrit :
Bon et bien après avoir retiré le md constitué des disques reliés à la carte mère et laissé dans le vg uniquement le volume raid géré par la carte LSI, j'ai pu remonter les fs et le serveur est stable. Une idée pour un protocole de test ? Je rappelle qu'avec les disques branché la carte mère je peux faire de "grosses" opérations d'I/O lvm ou md sans le faire planter, c'est juste si je monte me fs que ca part en sucette.
Alors, le serveur a finalement replanté après avoir tenu quelques jours.
Je l'ai rebooté sur un memtest (reboot à chaud). Au bout de quelques minutes, j'ai eu des erreurs, mais impossible de déterminer quelle barette sur les 4, donc reprise de memtests longs sur chacune des barettes.
J'en ai déjà testé deux pendant 10-20h (reboots à froid, évidemment, faut swapper les barettes) sans remontées d'erreurs. Il m'en reste deux à tester mais en attendant, avez vous déjà eu des erreurs de RAM selon une configuration de nombre et capacité de barettes RAM sans que chaque barette n'ai de problème elle meme ? Un problème de CM ?
Le reboot à froid/à chaud a t'il eu une importance dans mon protocole de test (stale data) ?
Merci d'avance