A rede de armazenamento para o tráfego de transmissão

2

Eu tenho um problema problemático.

Eu tenho uma rede de armazenamento de 10 Gb servindo um ambiente VMWare vSphere 5.1.

  • Armazenamento: TrueNAS (NFS) com um Chelseio T320 10Gb Nic
  • Armazenamento: Dell PowerVault MD3600i (iSCSI)
  • Rede: XSM7224S Switch de 10gb
  • Hardware VMWare: Três servidores Supermicro com proc hexadecimal duplo e 192Gb de RAM cada.
  • VMware 10gb Nics: Chelsio T420-LL-CR

O que acontece: Uma vez por semana, uma vez por mês, os dispositivos da rede de armazenamento param de transmitir tráfego e tudo cai em uma bola de fogo. Nenhum dos dispositivos pode fazer ping na rede de armazenamento quando isso acontece. É como se o switch desligasse todas as portas ou parasse de funcionar, mas a reinicialização do switch não faz nada. O status da rede nos sistemas linux e vmware informa um status de "Up", mas, independentemente disso, a reinicialização das interfaces de rede também não faz nada. Eu tenho que reiniciar todos os servidores envolvidos, incluindo o TrueNAS, mas excluindo o Dell Powervault, e então ele volta a ficar online e a rede começa a fluir.

O que eu fiz: Isso vem acontecendo há um tempo e nesse tempo eu substituí todos os Nics (eram 320, atualizados para 420), substitui o switch (era dell PC 8100), substituiu os cabos e adicionou o Dell PowerVault MD3600i. O TrueNAS estava agindo como o armazenamento primário, mas esse trabalho agora pertence ao PowerVault e o TrueNAS está agindo como armazenamento para backups do sistema. Nenhum registro indicou o que está ocorrendo. O switch não tem nenhuma colisão ou erro de transmissão de pacote para falar. Mas, independentemente de tudo isso, o problema ainda ocorre.

O que eu ainda tenho que fazer: Eu vou substituir o chelsio T320 NIC no TrueNAS por um sobressalente que tenho, hoje à noite. Também vou colocar meu switch Dell PowerConnect 8100 de 10 Gb de volta e separar a rede TrueNAS naquele switch simplesmente porque o TrueNAS é atualmente a única constante neste problema que não mudou.

Estou sentindo falta de alguma coisa?: Estou no final e quero jogar esse problema na comunidade e ver se estou pensando demais ou se há algumas ideias para ajudar a determinar o problema. Estou perdendo um pouco de sono e cabelo por causa disso. Eu vi o mau Nic tomar uma rede para baixo, mas que quase sempre pode ser facilmente testemunhado por ver colisões nas estatísticas de porta de switches.

Obrigado! Brad

    
por Brad 11.06.2013 / 21:21

1 resposta

1

Eu tive um problema parecido em uma rede 1G que rastreamos até falha de controle de fluxo com chipsets broadcom. Durante o PPS alto, um nic enviaria um quadro PAUSE ao switch. No PC 62XX e em outros switches baseados em broadcom, a ação padrão é propagar PAUSE de todas as portas que enviam tráfego para a porta que originalmente recebeu o quadro PAUSE. Isso pode se propagar para um switch completamente desligado na pior das hipóteses e, no mínimo, você verá o tráfego bloqueado.

acabamos desligando o controle de fluxo em todos os nossos switches broadcom com 'no flowcontrol', desde então, não vimos nenhuma rede ou interrupções parciais da rede de alto PPS.

    
por 17.03.2014 / 18:30