Bonsoir à tous,
As tu essayé de désactiver les différents offloading hardware que fait la carte, par exemple avec du :
ethtool --offload eth2 sg off ethtool -K eth2 tso off
(Il doit y en avoir d'autres. )
J'ai déjà vu ca en jessie sur un firewall qui au bout de 5 min faisait du yoyo Link Down / Link Up. Si cette piste peut aider ...
A+
Nico.
PS : @Fabien : tu viens plus aux soirées ? :-)
20 janvier 2017 20:22 "Fabien Germain" fabien@klipz.fr a écrit:
Bonsoir,
On 19/01/2017 10:13, Landry Minoza wrote:
J’ai eu le même problème il y a quelques années (squeeze) avec une « Intel Corporation 82599EB 10-Gigabit SFI/SFP+ Network Connection (rev 01) », la carte arrêtait soudainement de transférer les paquets (link up sur la machine et le switch en face, rien dans dmesg, mais plus aucun transfert), pas d’améliorations avec le kernel bpo, ni le driver made in Intel. Un ip l down / ip l up de l’interface permettait de la relancer pour quelques To. On avait créé un bond avec une des interfaces Giga en failover pour ne pas perdre la machine, et de mémoire, on avait réussi à le stabiliser en supprimant quelques options d’offloading (avec ethtool).
(tristement) amusant de voir que plusieurs années après, c'est exactement le même comportement que l'on observe sur nos X710 : Avec un kernel 4.8.0-0.bpo.2-amd64, ça fonctionne niquel pendant environ 15 ou 16h, et puis d'un coup plus rien, le réseau fait grève.
Les logs juste avant le plantage du réseau (mais la machine est toujours up, on a l'accès en console dessus) :
Jan 18 09:40:26 int-rt1 kernel: [62284.961173] i40e 0000:01:00.0: TX driver issue detected, PF reset issued Jan 18 09:40:27 int-rt1 kernel: [62285.442664] bond0: link status down for interface eth2, disabling it in 200 ms Jan 18 09:40:27 int-rt1 kernel: [62285.650320] i40e 0000:01:00.0: Error I40E_AQ_RC_EINVAL adding RX filters on PF, promiscuous mode forced on Jan 18 09:40:27 int-rt1 kernel: [62285.650627] bond0: link status up again after 200 ms for interface eth2
C'est un bonding sur 4 interfaces 10G : même si eth2 avait un soucis et lâchait, ça ne devrait pas avoir trop d'impact. Et pourtant...
On va tenter la semaine prochaine avec un kernel tout frais et pas encore bien sec (4.10-rc4), pour voir ce que ça donne. Puis on se résoudra à tester avec une CentOS.
Merci à tous pour vos retours !
Fabien _______________________________________________ Liste de diffusion du FRsAG http://www.frsag.org
Nicolas S.