Sub-redes intermitentemente não-comunicativas

2
Na semana passada provou-me uma verdadeira Cassandra: Eu sempre disse que é uma má ideia ter apenas um firewall / roteador, sem um backup ou failover. E, assim, nosso Cisco PIX ficou descontrolado, recusando-se a rotear corretamente. E, claro, o único disponível aqui em curto prazo sou eu, e enquanto estou bastante fundamentada no Linux, eu sou realmente um desenvolvedor e não um administrador de sistema (o fato de que isso me bateu no dia da apreciação do sysadmin é um pouco irônico) .

Enfim, neste fim de semana, tentei criar uma solução temporária: usei um servidor antigo com NICs suficientes (dois internos, quatro em uma placa) para servir como gateway e firewall. Devido a alguns problemas com o controlador RAID, obtive apenas duas distribuições de roteador em execução, e entre Untangle e Ebox decidi pela última.

Agora tudo está bem. Eu tenho todas as sub-redes diferentes que temos aqui (todas com switches separados) conversando entre si e até mesmo com a internet (roteador Cisco 2800, linhas T1). Mas de tempos em tempos (intervalos de 20 a 60 minutos), recebo uma falha total de roteamento. Nossa sub-rede principal de escritório não pode se comunicar com a sub-rede do nosso servidor e não pode se conectar à Internet. Este não é o fim de uma desaceleração gradual, ou tudo está funcionando perfeitamente ou eu tenho uma total falta de comunicação por cerca de dois minutos de cada vez.

Agora eu estou um pouco à vontade para finalizar o que verificar. Pelo menos com a configuração padrão do EBox, nada em / var / log mostra nada de estranho e não tem exatamente muitas ferramentas de monitoramento embutidas. Então, espero que alguém aqui possa me dar algumas dicas sobre o que procurar. Eu mudei o cabo ethernet do switch de escritório para o firewall, sem resultados. Eu poderia mudar de switch, embora dentro do switch pareça funcionar bem o suficiente.

Editar : não tenho certeza se essa é a única causa do problema, mas depois que notei algumas entradas de DHCP pouco antes da última gota de conectividade, tentei reproduzir isso. E, infelizmente, sempre que renovo uma conexão DHCP, não consigo mais acessar outras sub-redes. Executando o ISC DHCPD 3.0.6.

    
por mhd 02.08.2010 / 03:59

4 respostas

1

Existe alguma atualização de firmware disponível para suas NICs? Se for um servidor muito antigo, talvez problemas de conexão intermitentes tenham sido resolvidos em uma atualização? No mínimo, não faria mal navegar em qualquer nota de lançamento de firmware, para ver se um problema como esse é mencionado.

    
por 02.08.2010 / 04:03
1

Definitivamente, verifique o dmesg (a saída do comando, não apenas a do / var / log /). Eu verificaria o netstat -s e o compararia com os vários limites de ip de "sysctl -a". Especialmente se você estiver fazendo NAT, você pode estar atingindo algum tipo de limite de conexão.

Você pode tentar manipular um script para obter um dump de pacote em uma das interfaces durante a interrupção. Algo como "while [1]; faça ping -c 1 || tcpdump -s 0 -i eth0 -c 100; durma 10; pronto"

    
por 03.08.2010 / 09:40
1

20-60 segundos soam como reconvergência de árvore de abrangência . Verifique seus logs de switch (suponho que sejam switches gerenciados) e descubra o que está sendo desconectado / conectado que está causando a convergência. Se for um dispositivo com um único cabo indo para o switch, configure esse switchport para portfast. Ou você pode sempre pesquisar a causa raiz e descobrir o que está causando a porta para ligar e desligar. : D boa sorte!

    
por 04.01.2011 / 03:07
0

Verifique também dmesg para ver se há alguma coisa relacionada à rede. Alguns drivers podem ocasionalmente não responder devido a uma variedade de problemas relacionados ao driver / cartão.

    
por 02.08.2010 / 13:19