Recentemente, configuramos um novo servidor Ubuntu 12.04LTS em nossa rede. Não está totalmente configurado, por isso não está muito além de sshd
e de um padrão apache2
install. Mas esta noite parece ter caído. Não estava respondendo à rede ou ao teclado. Mas a pior parte é, derrubou toda a rede.
Meu conhecimento da pilha de rede abaixo da camada 3 do OSI é muito limitado, então o resto me confunde. Quando esta máquina estava fisicamente conectada à rede, nenhuma outra máquina podia se conectar à Internet externa. Quando as coisas foram quebradas, a execução de arp
mostrou que o endereço IP do nosso gateway ( 10.0.1.1
) estava listado como "inválido". Desconectar o servidor da rede resolveu o problema, e ligá-lo novamente o quebrou novamente. Então, o servidor travado estava se anunciando como proprietário do endereço IP do gateway?
Não há nada em syslog
durante o tempo em que estava causando problemas. Alguma idéia sobre como descobrir o que deu errado ou o que podemos fazer para evitar que isso aconteça novamente? Eu hesito em colocar a máquina de volta na rede agora mesmo.
**** Atualização ****
Ele travou novamente, e eu corri tcpdump -penn arp
(obrigado bahamat!) por vários minutos e recebi isso ... (timestamps e linhas duplicadas removidas)
00:1e:65:f8:dc:24 > ff:ff:ff:ff:ff:ff, ethertype ARP (0x0806), length 60: Request who-has 10.0.1.1 tell 10.0.2.191, length 46
00:1e:65:f8:dc:24 > ff:ff:ff:ff:ff:ff, ethertype ARP (0x0806), length 60: Request who-has 10.0.1.44 tell 10.0.2.191, length 46
60:d8:19:d4:71:d6 > ff:ff:ff:ff:ff:ff, ethertype ARP (0x0806), length 60: Request who-has 10.0.1.1 tell 10.0.2.125, length 46
d4:9a:20:04:e9:78 > ff:ff:ff:ff:ff:ff, ethertype ARP (0x0806), length 42: Request who-has 192.168.1.1 tell 192.168.1.100, length 28
**** Atualização 2 ****
Quando a rede está funcionando corretamente, arping -c4 10.0.1.1
retorna isso:
ARPING 10.0.1.1
60 bytes from c0:c1:c0:77:25:8e (10.0.1.1): index=0 time=267.982 usec
60 bytes from c0:c1:c0:77:25:8e (10.0.1.1): index=1 time=422.955 usec
60 bytes from c0:c1:c0:77:25:8e (10.0.1.1): index=2 time=299.215 usec
60 bytes from c0:c1:c0:77:25:8e (10.0.1.1): index=3 time=366.926 usec
--- 10.0.1.1 statistics ---
4 packets transmitted, 4 packets received, 0% unanswered (0 extra)
Quando o servidor incorreto está conectado, arping -c4 10.0.1.1
retorna:
ARPING 10.0.1.1
--- 10.0.1.1 statistics ---
4 packets transmitted, 0 packets received, 100% unanswered (0 extra)
**** Contexto ****
-
10.0.x.x
é a sub-rede principal.
-
10.0.1.1
é o principal gateway de internet
-
10.0.1.44
é uma impressora
-
10.0.2.*
devices são todos laptops / estações de trabalho
- Eu não tenho idéia do que está usando a
192.168.x.x
subnet - suas suposições são pelo menos tão boas quanto as minhas. Uma VM em uma estação de trabalho? Um WAP configurado incorretamente? Alguém está compartilhando o wifi? Uma máquina que não conseguiu DHCP?
- O endereço MAC do servidor ubuntu ofensivo termina em
cd:80
, portanto, não está listado no dump. Deve DHCP para 10.0.3.3
Obrigado por qualquer ajuda. Esse material ARP é todo vodu para mim. Pacotes vão para endereços IP, certo? ;)