Incidents étranges sur disques SSD sur H730 - FRsAG

19 Mar 2022

Hello all,

Sur 2 serveurs r630 que je suis en train de mettre en service
(progressivement), j’ai eu le même incident, à chaque fois
quelques jours après avoir mis en prod une 20aine de VM.
Les 2 serveurs sont identiques:
-R630 avec H730 entièrement à jour
-Proxmox 7.1 installé sur 2 HD SAS en raid 1
-pool ZFS raidz2 sur 6 SSD IBM 1.6To SAS 12Gbps (déclarés en
non-Raid sur la PERC)

L’incident donne ceci au niveau dmesg :

[630190.562386] sd 0:0:3:0: [sdb] tag#437 FAILED Result:
hostbyte=DID_OK driverbyte=DRIVER_SENSE cmd_age=0s
[630190.562392] sd 0:0:3:0: [sdb] tag#437 Sense Key : Data Protect
[current]
[630190.562395] sd 0:0:3:0: [sdb] tag#437 Add. Sense: Access
denied - no access rights[630190.562397] sd 0:0:3:0: [sdb] tag#437
CDB: Write(10) 2a 00 b4 8a 19 e8 00 01 00 00[630190.562399]
blk_update_request: critical target error, dev sdb, sector
3028949480 op 0x1:(WRITE) flags 0x700 phys_seg 32 prio class 0
[630190.562448] zio pool=zfsPool
vdev=/dev/disk/by-id/scsi-35000cca050ae89a0-part1 error=121 type=2
offset=1550821085184 size=131072 flags=40080c80
[630201.009893] sd 0:0:7:0: [sdf] tag#405 FAILED Result:
hostbyte=DID_OK driverbyte=DRIVER_SENSE cmd_age=0s
[630201.009899] sd 0:0:7:0: [sdf] tag#405 Sense Key : Data Protect
[current]
[630201.009901] sd 0:0:7:0: [sdf] tag#405 Add. Sense: Access
denied - no access rights[630201.009903] sd 0:0:7:0: [sdf] tag#405
CDB: Read(10) 28 00 b4 8a 19 b0 00 00 70 00
[630201.009905] blk_update_request: critical target error, dev
sdf, sector 3028949424 op 0x0:(READ) flags 0x700 phys_seg 14 prio
class 0
[630201.009955] zio pool=zfsPool
vdev=/dev/disk/by-id/scsi-35000cca050ae63cc-part1 error=121 type=1
offset=1550821056512 size=57344 flags=40080ca8
[630201.010013] sd 0:0:2:0: [sda] tag#408 FAILED Result:
hostbyte=DID_OK driverbyte=DRIVER_SENSE cmd_age=0s
[630201.010016] sd 0:0:2:0: [sda] tag#408 Sense Key : Data Protect
[current]
[630201.010018] sd 0:0:2:0: [sda] tag#408 Add. Sense: Access
denied - no access rights[630201.010020] sd 0:0:2:0: [sda] tag#408
CDB: Read(10) 28 00 b4 8a 19 90 00 00 a8 00
[630201.010021] blk_update_request: critical target error, dev
sda, sector 3028949392 op 0x0:(READ) flags 0x700 phys_seg 21 prio
class 0
[630201.010116] zio pool=zfsPool
vdev=/dev/disk/by-id/scsi-35000cca050ae4dcc-part1 error=121 type=1
offset=1550821040128 size=86016 flags=40080ca8
[630201.010525] sd 0:0:6:0: [sde] tag#403 FAILED Result:
hostbyte=DID_OK driverbyte=DRIVER_SENSE cmd_age=0s
[630201.010547] sd 0:0:6:0: [sde] tag#403 Sense Key : Data Protect
[current]
[630201.010553] sd 0:0:6:0: [sde] tag#403 Add. Sense: Access
denied - no access rights[630201.010560] sd 0:0:6:0: [sde] tag#403
CDB: Read(10) 28 00 b4 8a 19 a8 00 00 70 00
[630201.010565] blk_update_request: critical target error, dev
sde, sector 3028949416 op 0x0:(READ) flags 0x700 phys_seg 12 prio
class 0
[630201.010713] zio pool=zfsPool
vdev=/dev/disk/by-id/scsi-35000cca050ae6e78-part1 error=121 type=1
offset=1550821052416 size=57344 flags=40080ca8
[630201.045323] sd 0:0:3:0: [sdb] tag#433 FAILED Result:
hostbyte=DID_OK driverbyte=DRIVER_SENSE cmd_age=0s
[630201.045328] sd 0:0:3:0: [sdb] tag#433 Sense Key : Data Protect
[current]
[630201.045330] sd 0:0:3:0: [sdb] tag#433 Add. Sense: Access
denied - no access rights[630201.045332] sd 0:0:3:0: [sdb] tag#433
CDB: Read(10) 28 00 b4 8a 19 b0 00 00 70 00
[630201.045333] blk_update_request: critical target error, dev
sdb, sector 3028949424 op 0x0:(READ) flags 0x700 phys_seg 14 prio
class 0
[630201.045383] zio pool=zfsPool
vdev=/dev/disk/by-id/scsi-35000cca050ae89a0-part1 error=121 type=1
offset=1550821056512 size=57344 flags=40080ca8

Ça dure donc quelques secondes max.

Évidemment après ça, le pool est en sale état: 2 SSD en faulted, 2
en degraded, mais pas d’impact sur les données, et si je fais un
clear, ça resilver et ça repart comme si de rien n’était.

Dans les logs PERC: rien (peut être normal en non-raid mais alors
ça veut dire qu’il n’y a pas eu de problèmes sur les 2 HD en raid1).

Ça fait penser à un problème que le driver megaraid aurait eu
ponctuellement pour accéder physiquement aux SSD en non-raid.

Comme c’est arrivé sur les deux serveurs, le problème hardware
semble impossible.
Par contre, incompatibilité de ZFS et/ou H730 et/ou megaraid et/ou
SSD IBM ?

Je nage un peu pour le moment donc avant de me lancer dans des
grandes opérations chronophages (swap des SSD pour un autre modèle
SATA, remplacement de la H730 par une 330 flashée en IT,…), je
préfère voir si ca dit quelque chose à quelqu’un.
Google s’est avéré useless pour le moment.

Merci

David Ponzone

_______________________________________________
Liste de diffusion du %(real_name)s
http://www.frsag.org/