Le 19 mars 2022 à 15:07, Jarod G. <skid+frsag@tuto-craft.com> a écrit :
C'est ce que j'allais envoyer, en mode non-raid la carte gère toujours le traitement de quelques trucs et cache certaines infos des disques au système.

Heureusement depuis les cartes séries 30 on peut directement passer en mode HBA sans devoir flasher le firmware à la mano.

On 19/03/2022 12:12, Maxime De Berraly wrote:
Le mode "nonraid" par disque est pourri. Passe la H730 en mode HBA intégral.

Le sam. 19 mars 2022 à 11:47, David Ponzone <david.ponzone@gmail.com> a écrit :

Hello all,

Sur 2 serveurs r630 que je suis en train de mettre en service (progressivement), j’ai eu le même incident, à chaque fois quelques jours après avoir mis en prod une 20aine de VM.
Les 2 serveurs sont identiques:
-R630 avec H730 entièrement à jour
-Proxmox 7.1 installé sur 2 HD SAS en raid 1
-pool ZFS raidz2 sur 6 SSD IBM 1.6To SAS 12Gbps (déclarés en non-Raid sur la PERC)

L’incident donne ceci au niveau dmesg :

[630190.562386] sd 0:0:3:0: [sdb] tag#437 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE cmd_age=0s
[630190.562392] sd 0:0:3:0: [sdb] tag#437 Sense Key : Data Protect [current]
[630190.562395] sd 0:0:3:0: [sdb] tag#437 Add. Sense: Access denied - no access rights[630190.562397] sd 0:0:3:0: [sdb] tag#437 CDB: Write(10) 2a 00 b4 8a 19 e8 00 01 00 00[630190.562399] blk_update_request: critical target error, dev sdb, sector 3028949480 op 0x1:(WRITE) flags 0x700 phys_seg 32 prio class 0
[630190.562448] zio pool=zfsPool vdev=/dev/disk/by-id/scsi-35000cca050ae89a0-part1 error=121 type=2 offset=1550821085184 size=131072 flags=40080c80
[630201.009893] sd 0:0:7:0: [sdf] tag#405 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE cmd_age=0s
[630201.009899] sd 0:0:7:0: [sdf] tag#405 Sense Key : Data Protect [current]
[630201.009901] sd 0:0:7:0: [sdf] tag#405 Add. Sense: Access denied - no access rights[630201.009903] sd 0:0:7:0: [sdf] tag#405 CDB: Read(10) 28 00 b4 8a 19 b0 00 00 70 00
[630201.009905] blk_update_request: critical target error, dev sdf, sector 3028949424 op 0x0:(READ) flags 0x700 phys_seg 14 prio class 0
[630201.009955] zio pool=zfsPool vdev=/dev/disk/by-id/scsi-35000cca050ae63cc-part1 error=121 type=1 offset=1550821056512 size=57344 flags=40080ca8
[630201.010013] sd 0:0:2:0: [sda] tag#408 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE cmd_age=0s
[630201.010016] sd 0:0:2:0: [sda] tag#408 Sense Key : Data Protect [current]
[630201.010018] sd 0:0:2:0: [sda] tag#408 Add. Sense: Access denied - no access rights[630201.010020] sd 0:0:2:0: [sda] tag#408 CDB: Read(10) 28 00 b4 8a 19 90 00 00 a8 00
[630201.010021] blk_update_request: critical target error, dev sda, sector 3028949392 op 0x0:(READ) flags 0x700 phys_seg 21 prio class 0
[630201.010116] zio pool=zfsPool vdev=/dev/disk/by-id/scsi-35000cca050ae4dcc-part1 error=121 type=1 offset=1550821040128 size=86016 flags=40080ca8
[630201.010525] sd 0:0:6:0: [sde] tag#403 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE cmd_age=0s
[630201.010547] sd 0:0:6:0: [sde] tag#403 Sense Key : Data Protect [current]
[630201.010553] sd 0:0:6:0: [sde] tag#403 Add. Sense: Access denied - no access rights[630201.010560] sd 0:0:6:0: [sde] tag#403 CDB: Read(10) 28 00 b4 8a 19 a8 00 00 70 00
[630201.010565] blk_update_request: critical target error, dev sde, sector 3028949416 op 0x0:(READ) flags 0x700 phys_seg 12 prio class 0
[630201.010713] zio pool=zfsPool vdev=/dev/disk/by-id/scsi-35000cca050ae6e78-part1 error=121 type=1 offset=1550821052416 size=57344 flags=40080ca8
[630201.045323] sd 0:0:3:0: [sdb] tag#433 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE cmd_age=0s
[630201.045328] sd 0:0:3:0: [sdb] tag#433 Sense Key : Data Protect [current]
[630201.045330] sd 0:0:3:0: [sdb] tag#433 Add. Sense: Access denied - no access rights[630201.045332] sd 0:0:3:0: [sdb] tag#433 CDB: Read(10) 28 00 b4 8a 19 b0 00 00 70 00
[630201.045333] blk_update_request: critical target error, dev sdb, sector 3028949424 op 0x0:(READ) flags 0x700 phys_seg 14 prio class 0
[630201.045383] zio pool=zfsPool vdev=/dev/disk/by-id/scsi-35000cca050ae89a0-part1 error=121 type=1 offset=1550821056512 size=57344 flags=40080ca8

Ça dure donc quelques secondes max.

Évidemment après ça, le pool est en sale état: 2 SSD en faulted, 2 en degraded, mais pas d’impact sur les données, et si je fais un clear, ça resilver et ça repart comme si de rien n’était.

Dans les logs PERC: rien (peut être normal en non-raid mais alors ça veut dire qu’il n’y a pas eu de problèmes sur les 2 HD en raid1).

Ça fait penser à un problème que le driver megaraid aurait eu ponctuellement pour accéder physiquement aux SSD en non-raid.

Comme c’est arrivé sur les deux serveurs, le problème hardware semble impossible.
Par contre, incompatibilité de ZFS et/ou H730 et/ou megaraid et/ou SSD IBM ?

Je nage un peu pour le moment donc avant de me lancer dans des grandes opérations chronophages (swap des SSD pour un autre modèle SATA, remplacement de la H730 par une 330 flashée en IT,…), je préfère voir si ca dit quelque chose à quelqu’un.
Google s’est avéré useless pour le moment.

Merci

David Ponzone

_______________________________________________
Liste de diffusion du %(real_name)s
http://www.frsag.org/
_______________________________________________
Liste de diffusion du %(real_name)s
http://www.frsag.org/