Hoje, várias máquinas pararam de acessar a Internet. Depois de um monte de solução de problemas, o ponto comum é que todos eles tiveram seu contrato de locação de dhcp renovado hoje (estamos em 8 dias de arrendamento aqui).
Tudo o que você esperaria fica bem após a renovação da concessão: eles têm um endereço IP, um servidor dns e um gateway válidos. Eles têm acesso a recursos internos (compartilhamentos de arquivos, intranet, impressoras, etc). Um pouco mais de solução de problemas revela que eles não são capazes de fazer ping ou rastrear o nosso gateway, mas eles podem chegar ao nosso switch core layer3 bem na frente do gateway. Atribuir um IP estático à máquina funciona como uma solução temporária.
Uma última ruga é que, até o momento, os relatórios só chegaram para os clientes na mesma vlan que o gateway. Nossa equipe administrativa e professores estão na mesma vlan que os servidores e impressoras, mas telefones, chaveiros / câmeras, alunos / wifi e laboratórios têm suas próprias vlans e, até onde eu não vi nada em nenhuma das outras vlans teve um problema ainda.
Eu tenho um ticket separado com o fornecedor do gateway, mas eu suspeito que eles vão sair e me dizer que o problema está em outro lugar na rede, então estou perguntando aqui também. Eu limpei caches arp no gateway e no switch core. Qualquer idéia é bem vinda.
Atualização:
Tentei fazer o ping do gateway de volta para alguns hosts afetados, e o mais estranho é que recebi uma resposta: de um endereço IP completamente diferente. Eu tentei mais alguns aleatoriamente e, eventualmente, consegui isso:
Fri Sep 02 2011 13:08:51 GMT-0500 (Central Daylight Time)
PING 10.1.1.97 (10.1.1.97) 56(84) bytes of data.
64 bytes from 10.1.1.105: icmp_seq=1 ttl=255 time=1.35 ms
64 bytes from 10.1.1.97: icmp_seq=1 ttl=255 time=39.9 ms (DUP!)
10.1.1.97 é o alvo real pretendido do ping. 10.1.1.105 é suposto ser uma impressora em outro prédio. Eu tenho nunca visto um DUP em uma resposta de ping antes.
Meu melhor palpite no momento é um roteador wifi desonesto em um de nossos dormitórios na sub-rede 10.1.1.0/24 com um gateway ruim.
... continua. Eu agora desliguei a impressora ofensiva, e pings para um host afetado do gateway simplesmente falham completamente.
Atualização 2:
Eu verifico as tabelas de arp em uma máquina afetada, o gateway e cada interruptor entre eles. Em cada ponto, as entradas para esses dispositivos estavam todas corretas. Não verifiquei todas as entradas na tabela, mas todas as entradas que poderiam impactar o tráfego entre o host e o gateway estavam corretas. ARP não é o problema.
Atualização 3:
As coisas estão funcionando no momento, mas não vejo nada que eu fiz para consertá-las e, portanto, não tenho idéia se isso pode ser apenas uma calmaria temporária. De qualquer forma, não há muito que eu possa fazer para diagnosticar ou solucionar problemas agora, mas atualizarei mais se ele quebrar novamente.