Ubuntu 12 caiu e derrubou rede

5

Recentemente, configuramos um novo servidor Ubuntu 12.04LTS em nossa rede. Não está totalmente configurado, por isso não está muito além de sshd e de um padrão apache2 install. Mas esta noite parece ter caído. Não estava respondendo à rede ou ao teclado. Mas a pior parte é, derrubou toda a rede.

Meu conhecimento da pilha de rede abaixo da camada 3 do OSI é muito limitado, então o resto me confunde. Quando esta máquina estava fisicamente conectada à rede, nenhuma outra máquina podia se conectar à Internet externa. Quando as coisas foram quebradas, a execução de arp mostrou que o endereço IP do nosso gateway ( 10.0.1.1 ) estava listado como "inválido". Desconectar o servidor da rede resolveu o problema, e ligá-lo novamente o quebrou novamente. Então, o servidor travado estava se anunciando como proprietário do endereço IP do gateway?

Não há nada em syslog durante o tempo em que estava causando problemas. Alguma idéia sobre como descobrir o que deu errado ou o que podemos fazer para evitar que isso aconteça novamente? Eu hesito em colocar a máquina de volta na rede agora mesmo.

**** Atualização ****

Ele travou novamente, e eu corri tcpdump -penn arp (obrigado bahamat!) por vários minutos e recebi isso ... (timestamps e linhas duplicadas removidas)

00:1e:65:f8:dc:24 > ff:ff:ff:ff:ff:ff, ethertype ARP (0x0806), length 60: Request who-has 10.0.1.1 tell 10.0.2.191, length 46
00:1e:65:f8:dc:24 > ff:ff:ff:ff:ff:ff, ethertype ARP (0x0806), length 60: Request who-has 10.0.1.44 tell 10.0.2.191, length 46
60:d8:19:d4:71:d6 > ff:ff:ff:ff:ff:ff, ethertype ARP (0x0806), length 60: Request who-has 10.0.1.1 tell 10.0.2.125, length 46
d4:9a:20:04:e9:78 > ff:ff:ff:ff:ff:ff, ethertype ARP (0x0806), length 42: Request who-has 192.168.1.1 tell 192.168.1.100, length 28

**** Atualização 2 ****

Quando a rede está funcionando corretamente, arping -c4 10.0.1.1 retorna isso:

ARPING 10.0.1.1
60 bytes from c0:c1:c0:77:25:8e (10.0.1.1): index=0 time=267.982 usec
60 bytes from c0:c1:c0:77:25:8e (10.0.1.1): index=1 time=422.955 usec
60 bytes from c0:c1:c0:77:25:8e (10.0.1.1): index=2 time=299.215 usec
60 bytes from c0:c1:c0:77:25:8e (10.0.1.1): index=3 time=366.926 usec

--- 10.0.1.1 statistics ---
4 packets transmitted, 4 packets received,   0% unanswered (0 extra)

Quando o servidor incorreto está conectado, arping -c4 10.0.1.1 retorna:

ARPING 10.0.1.1

--- 10.0.1.1 statistics ---
4 packets transmitted, 0 packets received, 100% unanswered (0 extra)

**** Contexto ****

  • 10.0.x.x é a sub-rede principal.
  • 10.0.1.1 é o principal gateway de internet
  • 10.0.1.44 é uma impressora
  • 10.0.2.* devices são todos laptops / estações de trabalho
  • Eu não tenho idéia do que está usando a 192.168.x.x subnet - suas suposições são pelo menos tão boas quanto as minhas. Uma VM em uma estação de trabalho? Um WAP configurado incorretamente? Alguém está compartilhando o wifi? Uma máquina que não conseguiu DHCP?
  • O endereço MAC do servidor ubuntu ofensivo termina em cd:80 , portanto, não está listado no dump. Deve DHCP para 10.0.3.3

Obrigado por qualquer ajuda. Esse material ARP é todo vodu para mim. Pacotes vão para endereços IP, certo? ;)

    
por Leopd 09.07.2012 / 06:03

2 respostas

2

Apenas tive o mesmo problema. De repente, a maior parte da minha rede caiu. A única parte que ainda funcionava era WiFi e só consegui conectar ao roteador, não consegui acessar a WAN e nenhum dos computadores da LAN com fio respondeu meus pings. Depois de reiniciar o roteador várias vezes sem sucesso, recorri à desconexão de todos os cabos ethernet. De repente, funcionou novamente, reconectou os cabos e tudo caiu. Depois de um pouco de tentativa e erro, encontrei o culpado; meu servidor Ubuntu 12.04 sem cabeça. Eu poderia matar a rede, ligando-a e revivê-la, desligando-a. Eventualmente eu recorri para puxar o poder. Quando ele voltou, tocou muito bem, chequei o syslog e, para minha grande surpresa, não havia absolutamente nada lá;

Sep 17 21:21:44 *** Normal event occuring
Sep 17 21:22:16 *** Normal event occuring
Sep 17 21:22:48 *** Normal event occuring
Sep 17 21:23:20 *** Normal event occuring
Sep 17 22:45:36 Atlas kernel: imklog 5.8.6, log source = /proc/kmsg started.
Sep 17 22:45:36 Atlas rsyslogd: [origin software="rsyslogd" swVersion="5.8.6" x-pid="1048" x-info="http://www.rsyslog.com"] start
Sep 17 22:45:36 Atlas rsyslogd: rsyslogd's groupid changed to 103
Sep 17 22:45:36 Atlas rsyslogd: rsyslogd's userid changed to 101

Estranho mesmo e meio que preocupante. Não só o meu servidor que ficou estável desde que o disparei pela primeira vez caiu, mas conseguiu trazer o resto da rede consigo.

    
por 17.09.2012 / 23:15
0

Bem, posso dizer-lhe que a máquina em 192.168.1.x é um endereço MAC emitido para a Apple.

Você está recebendo as solicitações ARP no próprio gateway? Que tal descarregar tráfego do switch? Está soando como se a máquina Ubuntu estivesse recebendo ARPs enviados que não deveria e poderia estar confundindo o switch.

    
por 12.07.2012 / 00:04