Estou com problemas com o armazenamento VMware vSphere 5.1 e NFS em duas configurações diferentes, o que resulta em um estado "All Path Down" para os compartilhamentos NFS. Isso aconteceu primeiro uma ou duas vezes por dia, mas ultimamente ocorre com muito mais frequência, especialmente quando os trabalhos do Acronis Backup estão em execução.
Configuração 1 (Produção):
2 hosts ESXi 5.1 (Essentials Plus) + OpenFiler com NFS como armazenamento
Configuração 2 (Lab):
1 ESXi 5.1 host + Ubuntu 12.04 LTS com NFS como armazenamento
Aqui está um exemplo do vmkernel.log:
2013-05-28T08:07:33.479Z cpu0:2054)StorageApdHandler: 248: APD Timer started for ident [987c2dd0-02658e1e]
2013-05-28T08:07:33.479Z cpu0:2054)StorageApdHandler: 395: Device or filesystem with identifier [987c2dd0-02658e1e] has entered the All Paths Down state.
2013-05-28T08:07:33.479Z cpu0:2054)StorageApdHandler: 846: APD Start for ident [987c2dd0-02658e1e]!
2013-05-28T08:07:37.485Z cpu0:2052)NFSLock: 610: Stop accessing fd 0x410007e4cf28 3
2013-05-28T08:07:37.485Z cpu0:2052)NFSLock: 610: Stop accessing fd 0x410007e4d0e8 3
2013-05-28T08:07:41.280Z cpu1:2049)StorageApdHandler: 277: APD Timer killed for ident [987c2dd0-02658e1e]
2013-05-28T08:07:41.280Z cpu1:2049)StorageApdHandler: 402: Device or filesystem with identifier [987c2dd0-02658e1e] has exited the All Paths Down state.
2013-05-28T08:07:41.281Z cpu1:2049)StorageApdHandler: 902: APD Exit for ident [987c2dd0-02658e1e]!
2013-05-28T08:07:52.300Z cpu1:3679)NFSLock: 570: Start accessing fd 0x410007e4d0e8 again
2013-05-28T08:07:52.300Z cpu1:3679)NFSLock: 570: Start accessing fd 0x410007e4cf28 again
Contanto que o problema ocorra uma ou duas vezes por dia, isso realmente não era um problema, mas agora esse problema tem impacto nas VMs. As VMs ficam lentas ou até travam, resultando em uma reinicialização através do vCenter no ambiente de produção.
Eu procurei na web extensivamente e perguntei em fóruns, mas até agora ninguém foi capaz de me ajudar. Com base nos posts do blog e nos artigos da VMWare, tentei as seguintes configurações do NFS:
Net.TcpipHeapSize = 32
Net.TcpipHeapMax = 128
NFS.HartbeatFrequency = 12
NFS.HartbeatMaxFailures = 10
NFS.HartbeatTimeout = 5
NFS.MaxQueueDepth = 64
Em vez de NFS.MaxQueueDepth = 64 Eu já tentei outras configurações como NFS.MaxQueueDepth = 32 ou mesmo NFS.MaxQueueDepth = 1. Infelizmente sem sorte.
Seria ótimo se alguém pudesse me ajudar nessa questão. É muito chato.
Agradecemos antecipadamente por toda a ajuda.
[UPDATE]
Como expliquei no comentário abaixo, aqui está a configuração da rede:
Na configuração de produção, o tráfego NFS está vinculado a uma VLAN separada com o ID 20. Estou usando um switch HP 1810 24 Port. O sistema OpenFiler está conectado à VLAN com 4 NICs Intel GbE com LACP dinâmico. O ESXis possui 4 NICs Intel GbE usando 2 troncos LACP estáticos contendo 2 NICs cada. Um par está conectado à LAN normal e o outro à VLAN 20.
E aqui está uma captura de tela do vSwitch:
Configuraçãodoswitch:
Configuração da porta:
Na configuração do laboratório, há uma única NIC Intel em cada lado sem VLAN, mas com uma sub-rede IP diferente.