Le 31/10/2011 15:18, Gregory Duchatelet a écrit :
Un diagnostique Dell donne ces erreurs :
* Critical interrupt sensor (PCIE Fatal Err) Bus Fatal Error * Processor sensor (CPU Machine Chk) transition to non-recoverable
Quel diagnostique ? Que te remonte le log des événements de la drac ? Les machines freezent ou rebootent ?
Je suis en contact avec Dell, ai envoyé pas mal de logs et de rapports DSET, mais pour l'instant ils n'ont pas de piste, le bug est "escaladé"...
Sur 4 machines c'est pas mal... Les numéros de série se suivent ? (premières lettres des services tags)
La seule chose que j'ai faite après avoir supprimé les logs IPMI, c'est de mettre à jour le BIOS en 1.8.2, depuis pas d'erreurs, mais comme ça faisait déjà plusieurs mois qu'ils tournaient sans problème, ce "bug" peut potentiellement revenir ...
Mets tout à jour avec leur outil qui démarre avec F11 au boot (ça va chercher sur le ftp de Dell les bons outils). Ou alors avec les DVD Dell SUU & SBUU. Le bios c'est bien mais il y a aussi la drac et la BMC à garder à jour.
Comme le dit Cyril, si t'as envie de garder tes machines stables désactive les checks qui font appel aux sensors de ton hardware puisque ça à l'air d'être déclenchant dans tes soucis... D'ailleurs, arrives tu à corréler l'heure de tes plantages avec des heures de checks de ton monitoring ? :)
- Aurélien