ESX 6 arp falha em back 2 back link

1

estamos tendo um problema estranho com a volta 2 de volta entre uma máquina ESX 6 e o CentOS 7. Na esperança de encontrar uma solução no stackoverflow

A história está abaixo: - estamos usando um CentOS 7 diretamente conectado ao ESX e o usamos como iSCSI NAS - de tempos em tempos o ESX diz que não pode ver o NAS e o correspondente DataStore ficará inacessível - quando isso acontecer nós verificamos tudo e nada físico está errado, o LED nas NIC's está ligado, ethtool no Linux e ESX report link está OK - quando checamos arp, o Linux conhece a interface ESX, porém o ESX não e o arp cache diz incompleto. - quando verificamos pacotes ARP / RARP usando o tcpdump, o que aconteceu estranho, no Linux O ARP é recebido da interface ESX e o tcpdump mostra as respostas do Linux à solicitação ARP, como cada tcpdump do ESX não tem a resposta ARP que o Linux enviou. - De alguma forma parece que o link se tornou uma via de mão única!?

plz verifique os comandos e o resultado que fizemos em busca de uma pista:

No CentOS 7

[root@nas ~]# arp -an
? (10.10.10.2) at 00:50:56:XX:0d:77 [ether] on enp3s6
? (192.168.70.254) at 00:50:56:XX:99:c7 [ether] on enp5s0

[root@nas ~]# tcpdump -nnvli enp3s6 arp
tcpdump: listening on enp3s6, link-type EN10MB (Ethernet), capture size 65535 bytes
07:52:25.143360 ARP, Ethernet (len 6), IPv4 (len 4), Request who-has 10.10.10.1 tell 10.10.10.2, length 46
07:52:25.143367 ARP, Ethernet (len 6), IPv4 (len 4), Reply 10.10.10.1 is-at 00:07:e9:XX:07:93, length 28
07:52:26.143452 ARP, Ethernet (len 6), IPv4 (len 4), Request who-has 10.10.10.1 tell 10.10.10.2, length 46
07:52:26.143454 ARP, Ethernet (len 6), IPv4 (len 4), Reply 10.10.10.1 is-at 00:07:e9:XX:07:93, length 28
07:52:27.145667 ARP, Ethernet (len 6), IPv4 (len 4), Request who-has 10.10.10.1 tell 10.10.10.2, length 46
07:52:27.145673 ARP, Ethernet (len 6), IPv4 (len 4), Reply 10.10.10.1 is-at 00:07:e9:XX:07:93, length 28

no ESX 6

[root@gahar:~] tcpdump-uw  -nnvli vmk2 arp 
tcpdump-uw: listening on vmk2, link-type EN10MB (Ethernet), capture size 96 bytes
07:52:25.523005 ARP, Ethernet (len 6), IPv4 (len 4), Request who-has 10.10.10.1 tell 10.10.10.2, length 28
07:52:26.523247 ARP, Ethernet (len 6), IPv4 (len 4), Request who-has 10.10.10.1 tell 10.10.10.2, length 28
07:52:27.524461 ARP, Ethernet (len 6), IPv4 (len 4), Request who-has 10.10.10.1 tell 10.10.10.2, length 28
07:52:31.079580 ARP, Ethernet (len 6), IPv4 (len 4), Request who-has 10.10.10.1 tell 10.10.10.2, length 28
07:52:31.079634 ARP, Ethernet (len 6), IPv4 (len 4), Request who-has 10.10.10.1 tell 10.10.10.2, length 28
07:52:32.080746 ARP, Ethernet (len 6), IPv4 (len 4), Request who-has 10.10.10.1 tell 10.10.10.2, length 28
07:52:33.081656 ARP, Ethernet (len 6), IPv4 (len 4), Request who-has 10.10.10.1 tell 10.10.10.2, length 28

[root@gahar:~] ping 10.10.10.1
PING 10.10.10.1 (10.10.10.1): 56 data bytes
sendto() failed (Host is down)
[root@gahar:~] esxcli network ip neighbor list
Neighbor        Mac Address        Vmknic    Expiry  State  Type   
--------------  -----------------  ------  --------  -----  -------
192.168.33.10   00:0c:29:XX:ea:60  vmk0     965 sec         Unknown
192.168.33.254  00:50:56:XX:99:c7  vmk0    1194 sec         Unknown
10.10.10.1      (incomplete)       vmk2      -3 sec         Unknown

Solução temporária:

[root@gahar:~] esxcli network nic down -n vmnic2
[root@gahar:~] esxcli network nic up -n vmnic2

[root@gahar:~] ping 10.10.10.1
PING 10.10.10.1 (10.10.10.1): 56 data bytes
64 bytes from 10.10.10.1: icmp_seq=0 ttl=64 time=0.207 ms
64 bytes from 10.10.10.1: icmp_seq=1 ttl=64 time=0.212 ms
64 bytes from 10.10.10.1: icmp_seq=2 ttl=64 time=0.257 ms

--- 10.10.10.1 ping statistics ---
3 packets transmitted, 3 packets received, 0% packet loss
round-trip min/avg/max = 0.207/0.225/0.257 ms

Tendo todos os itens acima, estou procurando uma solução. Não consigo encontrar a causa raiz.

    
por Mehdi Sarmadi 16.01.2016 / 12:43

0 respostas