Problema com o VMWare vSphere e NFS: o estado de ocorrência de apd

2

Estou com problemas com o armazenamento VMware vSphere 5.1 e NFS em duas configurações diferentes, o que resulta em um estado "All Path Down" para os compartilhamentos NFS. Isso aconteceu primeiro uma ou duas vezes por dia, mas ultimamente ocorre com muito mais frequência, especialmente quando os trabalhos do Acronis Backup estão em execução.

Configuração 1 (Produção): 2 hosts ESXi 5.1 (Essentials Plus) + OpenFiler com NFS como armazenamento

Configuração 2 (Lab): 1 ESXi 5.1 host + Ubuntu 12.04 LTS com NFS como armazenamento

Aqui está um exemplo do vmkernel.log:

2013-05-28T08:07:33.479Z cpu0:2054)StorageApdHandler: 248: APD Timer started for ident [987c2dd0-02658e1e]
2013-05-28T08:07:33.479Z cpu0:2054)StorageApdHandler: 395: Device or filesystem with identifier [987c2dd0-02658e1e] has entered the All Paths Down state.
2013-05-28T08:07:33.479Z cpu0:2054)StorageApdHandler: 846: APD Start for ident [987c2dd0-02658e1e]!
2013-05-28T08:07:37.485Z cpu0:2052)NFSLock: 610: Stop accessing fd 0x410007e4cf28  3
2013-05-28T08:07:37.485Z cpu0:2052)NFSLock: 610: Stop accessing fd 0x410007e4d0e8  3
2013-05-28T08:07:41.280Z cpu1:2049)StorageApdHandler: 277: APD Timer killed for ident [987c2dd0-02658e1e]
2013-05-28T08:07:41.280Z cpu1:2049)StorageApdHandler: 402: Device or filesystem with identifier [987c2dd0-02658e1e] has exited the All Paths Down state.
2013-05-28T08:07:41.281Z cpu1:2049)StorageApdHandler: 902: APD Exit for ident [987c2dd0-02658e1e]!
2013-05-28T08:07:52.300Z cpu1:3679)NFSLock: 570: Start accessing fd 0x410007e4d0e8 again
2013-05-28T08:07:52.300Z cpu1:3679)NFSLock: 570: Start accessing fd 0x410007e4cf28 again

Contanto que o problema ocorra uma ou duas vezes por dia, isso realmente não era um problema, mas agora esse problema tem impacto nas VMs. As VMs ficam lentas ou até travam, resultando em uma reinicialização através do vCenter no ambiente de produção.

Eu procurei na web extensivamente e perguntei em fóruns, mas até agora ninguém foi capaz de me ajudar. Com base nos posts do blog e nos artigos da VMWare, tentei as seguintes configurações do NFS:

Net.TcpipHeapSize = 32
Net.TcpipHeapMax = 128
NFS.HartbeatFrequency = 12
NFS.HartbeatMaxFailures = 10
NFS.HartbeatTimeout = 5
NFS.MaxQueueDepth = 64

Em vez de NFS.MaxQueueDepth = 64 Eu já tentei outras configurações como NFS.MaxQueueDepth = 32 ou mesmo NFS.MaxQueueDepth = 1. Infelizmente sem sorte.

Seria ótimo se alguém pudesse me ajudar nessa questão. É muito chato.

Agradecemos antecipadamente por toda a ajuda.

[UPDATE] Como expliquei no comentário abaixo, aqui está a configuração da rede:

Na configuração de produção, o tráfego NFS está vinculado a uma VLAN separada com o ID 20. Estou usando um switch HP 1810 24 Port. O sistema OpenFiler está conectado à VLAN com 4 NICs Intel GbE com LACP dinâmico. O ESXis possui 4 NICs Intel GbE usando 2 troncos LACP estáticos contendo 2 NICs cada. Um par está conectado à LAN normal e o outro à VLAN 20.

E aqui está uma captura de tela do vSwitch:

Configuraçãodoswitch:

Configuração da porta:

Na configuração do laboratório, há uma única NIC Intel em cada lado sem VLAN, mas com uma sub-rede IP diferente.

    
por Bastian N. 30.05.2013 / 14:26

2 respostas

1

Eu recomendo tentar isso sem os troncos estáticos no lado do host do ESXi. Eles provavelmente não estão fazendo o que você espera (velocidades de transferência de > 1 Gbps). Tente sem e veja qual é o impacto ... Eu configuro meu armazenamento NFS com várias NICs no lado do host ESXi, mas faço o LACP da unidade de armazenamento para o switch.

    
por 03.06.2013 / 08:48
0

Eu tive o mesmo problema exato. Acontece que foram os meus comutadores físicos cujo MTU eu tinha definido para 9000 e as minhas portas vmk foram configuradas para 9000 também. Parece uma partida feita no céu. Meu switch queria que fosse definido para 9000+. Não tenho certeza qual é o plus, já que configurei para 9216 (o máximo do switch) em um ato de desespero e funcionou.

    
por 28.06.2013 / 23:55