Bonjour à tous,
depuis quelques temps j'ai des erreurs EXT4 sur un serveur physique, ayant une carte raid matérielle (raid5).
Voici les erreurs que j'ai dans syslog :
/EXT4-fs error (device sda1) in ext4_free_inode:360: Corrupt filesystem/
/EXT4-fs error (device sda1): ext4_lookup:1708: inode #842105236: comm rm: deleted inode referenced: 941326373/
/EXT4-fs warning (device sda1): ext4_empty_dir:2876: inode #124485994: lblock 0: comm rm: error -117 reading directory block/
/EXT4-fs warning (device sda1): ext4_dirblock_csum_verify:377: inode #123470312: comm rm: No space for directory leaf checksum. Please run e2fsck -D/
/EXT4-fs error (device sda1): ext4_empty_dir:2876: inode #940638217: comm rm: Directory block failed checksum/
/EXT4-fs error (device sda1): ext4_lookup:1708: inode #1809056062: comm rsync: deleted inode referenced: 123469903/
Je n'ai pas d'erreurs au niveau de la carte RAID ou du SMART des HDD.
Si je lance un e2fsck -D , les erreurs disparaissent pendant quelques semaines puis reviennent.
A savoir que sda1 est un volume sur lequel je fais des rsync avec options --link-dest et -aHvh
Des idées sur la cause ?
Hugo
Le Thu, Jul 06, 2023 at 03:15:59PM +0200, Support - Voganet a écrit:
depuis quelques temps j'ai des erreurs EXT4 sur un serveur physique, ayant une carte raid matérielle (raid5). Je n'ai pas d'erreurs au niveau de la carte RAID ou du SMART des HDD.
Si tu n'as vraiment aucune erreur ni sur la carte, ni sur les disques, essaye un memtest, on ne sait jamais.
Sinon, je dirais de changer le train de disques (et virer la carte raid) ASAP.
En attendant, bien vérifier que les backups se font, /et/ qu'ils sont restaurables...
Arnaud.
Tout d'abord merci à tous pour vos réponses.
Coté Inode il y a de la place :
Sys. de fichiers Inœuds IUtil. ILibre IUti% Monté sur /dev/sda1 2,0G 56M 2,0G 3% /data
Dmesg ressort les mêmes erreurs que syslog, donné dans mon premier message.
Pour l'interface de gestion du serveur il s'agit d'un supermicro.
Concernant la carte RAID, j'ai l’impression que vous n’êtes pas de grand partisans. Je suis intéressé par votre point de vue. Il s'agit d'un server avec 12 disques de 14To. Vous seriez parti sur un soft raid mdadm , zfs ?
Je vais faire un memtest86 d'ici demain soir.
Hugo
Hugo Besse Responsable technique --------------------------------- Voganet Telecom Rue Jules Vallès 43100 BRIOUDE --------------------------------- Tel direct: +33 (0)4 71 50 21 59
On 06/07/2023 15:33, Arnaud Launay wrote:
Le Thu, Jul 06, 2023 at 03:15:59PM +0200, Support - Voganet a écrit:
depuis quelques temps j'ai des erreurs EXT4 sur un serveur physique, ayant une carte raid matérielle (raid5). Je n'ai pas d'erreurs au niveau de la carte RAID ou du SMART des HDD.
Si tu n'as vraiment aucune erreur ni sur la carte, ni sur les disques, essaye un memtest, on ne sait jamais.
Sinon, je dirais de changer le train de disques (et virer la carte raid) ASAP.
En attendant, bien vérifier que les backups se font, /et/ qu'ils sont restaurables...
Arnaud. _______________________________________________ Liste de diffusion du %(real_name)s http://www.frsag.org/
Concernant la carte RAID, j'ai l’impression que vous n’êtes pas de grand partisans. Je suis intéressé par votre point de vue. Il s'agit d'un server avec 12 disques de 14To. Vous seriez parti sur un soft raid mdadm , zfs ?
Processeurs asmatique, bug firmware... plus on enlève ces machins mieux c'est. Quand en soft raid : zfs... (après ca dépend de ce que tu fais avec mais ZFS..).
Xavier
ZFS is beautiful mais vraiment.
Seul regret: qu’il y ait pas une commande magique pour migrer de Z1 en Z2.
David Ponzone
Le 6 juil. 2023 à 22:33, Xavier Beaudouin via FRsAG frsag@frsag.org a écrit :
Concernant la carte RAID, j'ai l’impression que vous n’êtes pas de grand partisans. Je suis intéressé par votre point de vue. Il s'agit d'un server avec 12 disques de 14To. Vous seriez parti sur un soft raid mdadm , zfs ?
Processeurs asmatique, bug firmware... plus on enlève ces machins mieux c'est. Quand en soft raid : zfs... (après ca dépend de ce que tu fais avec mais ZFS..).
Xavier _______________________________________________ Liste de diffusion du %(real_name)s http://www.frsag.org/
Tu ajoutes dans ton pool tes disk en z2 puis tu supprime les disk en z1…
Envoyé de mon iPhone
Le 6 juil. 2023 à 22:40, David Ponzone david.ponzone@gmail.com a écrit :
ZFS is beautiful mais vraiment.
Seul regret: qu’il y ait pas une commande magique pour migrer de Z1 en Z2.
David Ponzone
Le 6 juil. 2023 à 22:33, Xavier Beaudouin via FRsAG frsag@frsag.org a écrit :
Concernant la carte RAID, j'ai l’impression que vous n’êtes pas de grand partisans. Je suis intéressé par votre point de vue. Il s'agit d'un server avec 12 disques de 14To. Vous seriez parti sur un soft raid mdadm , zfs ?
Processeurs asmatique, bug firmware... plus on enlève ces machins mieux c'est. Quand en soft raid : zfs... (après ca dépend de ce que tu fais avec mais ZFS..).
Xavier _______________________________________________ Liste de diffusion du %(real_name)s http://www.frsag.org/
Concernant la carte RAID, j'ai l’impression que vous n’êtes pas de grand partisans. Je suis intéressé par votre point de vue. Il s'agit d'un server avec
le raid matériel est une horreur coûteuse, dangereuse et lente la seule fois où j'ai perdu des données sur un serveur (j'avais les sauvegardes mais la honte quand même)
12 disques de 14To. Vous seriez parti sur un soft raid mdadm , zfs ?
mdadm ça marche très bien, mais j'ai eu une fois un truc ultra zarb en reconstruction sur 15 ans d'utilisation. Ce qui fait qu'en application critique, le raid1 mdadm, c'est désormais 3 disques. Pour le reste mdadm testé raid1, raid5, raid6 et raid10 sans souci.
zfs, on dira que c'est une autre dimension. ça justifierai (entre autres) le passage à freebsd même si c'est dispo sous linux. ici on est pour l'instant xen/debian/mdadm/lvm, soit on passera soit xen/freebsd/zfs soit xen/debian/zfs, y'a "trop de trucs mieux" avec zfs et j'ai trop de potes plus pointus qui sont passés à freebsd pour ne pas y goûter (mais ça m'oblige à recoder toute la couche fw/routage, ce qui limite mon enthousiasme).
Bonjour
Il faudrait vérifier l'espace libre coté inode avec "df -hi"
Sinon de manière général:
- Coté Linux, appliquer le dernier kernel de sa distribution - Coté hardware: Si le serveur peut être mis offline pendant quelques temps, cela peut valoir le coup de faire un memtest86. - Coté firmware: Une MAJ des firmwares disques et carte raid Si tu as du matériel de spare, tu peux aussi voir pour mettre les disques sur le serveur de spare, lancer le fsck et espérer que le problème disparaisse.
Bonne chance
________________________________ De : Support - Voganet support@voganet.com Envoyé : jeudi 6 juillet 2023 15:15 À : frsag@frsag.org Objet : [FRsAG] EXT4 inode error
Bonjour à tous,
depuis quelques temps j'ai des erreurs EXT4 sur un serveur physique, ayant une carte raid matérielle (raid5).
Voici les erreurs que j'ai dans syslog :
EXT4-fs error (device sda1) in ext4_free_inode:360: Corrupt filesystem
EXT4-fs error (device sda1): ext4_lookup:1708: inode #842105236: comm rm: deleted inode referenced: 941326373
EXT4-fs warning (device sda1): ext4_empty_dir:2876: inode #124485994: lblock 0: comm rm: error -117 reading directory block
EXT4-fs warning (device sda1): ext4_dirblock_csum_verify:377: inode #123470312: comm rm: No space for directory leaf checksum. Please run e2fsck -D
EXT4-fs error (device sda1): ext4_empty_dir:2876: inode #940638217: comm rm: Directory block failed checksum
EXT4-fs error (device sda1): ext4_lookup:1708: inode #1809056062: comm rsync: deleted inode referenced: 123469903
Je n'ai pas d'erreurs au niveau de la carte RAID ou du SMART des HDD.
Si je lance un e2fsck -D , les erreurs disparaissent pendant quelques semaines puis reviennent.
A savoir que sda1 est un volume sur lequel je fais des rsync avec options --link-dest et -aHvh
Des idées sur la cause ?
Hugo