Eu tive um problema parecido em uma rede 1G que rastreamos até
acabamos desligando o controle de fluxo em todos os nossos switches broadcom com 'no flowcontrol', desde então, não vimos nenhuma rede ou interrupções parciais da rede de alto PPS.
Eu tenho um problema problemático.
Eu tenho uma rede de armazenamento de 10 Gb servindo um ambiente VMWare vSphere 5.1.
O que acontece: Uma vez por semana, uma vez por mês, os dispositivos da rede de armazenamento param de transmitir tráfego e tudo cai em uma bola de fogo. Nenhum dos dispositivos pode fazer ping na rede de armazenamento quando isso acontece. É como se o switch desligasse todas as portas ou parasse de funcionar, mas a reinicialização do switch não faz nada. O status da rede nos sistemas linux e vmware informa um status de "Up", mas, independentemente disso, a reinicialização das interfaces de rede também não faz nada. Eu tenho que reiniciar todos os servidores envolvidos, incluindo o TrueNAS, mas excluindo o Dell Powervault, e então ele volta a ficar online e a rede começa a fluir.
O que eu fiz: Isso vem acontecendo há um tempo e nesse tempo eu substituí todos os Nics (eram 320, atualizados para 420), substitui o switch (era dell PC 8100), substituiu os cabos e adicionou o Dell PowerVault MD3600i. O TrueNAS estava agindo como o armazenamento primário, mas esse trabalho agora pertence ao PowerVault e o TrueNAS está agindo como armazenamento para backups do sistema. Nenhum registro indicou o que está ocorrendo. O switch não tem nenhuma colisão ou erro de transmissão de pacote para falar. Mas, independentemente de tudo isso, o problema ainda ocorre.
O que eu ainda tenho que fazer: Eu vou substituir o chelsio T320 NIC no TrueNAS por um sobressalente que tenho, hoje à noite. Também vou colocar meu switch Dell PowerConnect 8100 de 10 Gb de volta e separar a rede TrueNAS naquele switch simplesmente porque o TrueNAS é atualmente a única constante neste problema que não mudou.
Estou sentindo falta de alguma coisa?: Estou no final e quero jogar esse problema na comunidade e ver se estou pensando demais ou se há algumas ideias para ajudar a determinar o problema. Estou perdendo um pouco de sono e cabelo por causa disso. Eu vi o mau Nic tomar uma rede para baixo, mas que quase sempre pode ser facilmente testemunhado por ver colisões nas estatísticas de porta de switches.
Obrigado! Brad
Eu tive um problema parecido em uma rede 1G que rastreamos até
acabamos desligando o controle de fluxo em todos os nossos switches broadcom com 'no flowcontrol', desde então, não vimos nenhuma rede ou interrupções parciais da rede de alto PPS.
Tags networking nic iscsi switch 10gbethernet