Bonjour,
(désolé j'ai plus le message-id, j'ai trouvé le mail sur les archives)
> sur l'ensemble de mes serveurs Dell, j'ai 9 serveurs R410 en production depuis
> plusieurs mois. 4 ont planté lamentablement dans le mois d'octobre, de manière
> aléatoire.
>
> Rien dans les logs, le serveur reboot et stop juste après le BIOS sur le message
> "System fatal error - press F1 to continue or F2 for setup".
> Un diagnostique Dell donne ces erreurs :
>
> Critical interrupt sensor (PCIE Fatal Err) Bus Fatal Error
> Processor sensor (CPU Machine Chk) transition to non-recoverable
>
>
> Je suis en contact avec Dell, ai envoyé pas mal de logs et de rapports DSET,
> mais pour l'instant ils n'ont pas de piste, le bug est "escaladé"...
>
> La seule chose que j'ai faite après avoir supprimé les logs IPMI, c'est de
> mettre à jour le BIOS en 1.8.2, depuis pas d'erreurs, mais comme ça faisait déjà
> plusieurs mois qu'ils tournaient sans problème, ce "bug" peut potentiellement
> revenir ...
As tu plus d'infos aujourd'hui ? L'upgrade de Bios a t-elle aidée ? Ou pas ?
J'ai ce problème sur un R620 (j'en suis à 3 reboots) alors que son petit frère
qui a le même workload n'a pas encore rebooté...
Merci,
--
Seb