Por que certos switches de rede param de funcionar, outros estão bem?

5

Tenho certeza que muitos de nós estamos acostumados (ou já experimentamos) a rotina (ou pelo menos a necessidade ocasional) de ter que reinicializar (ou ligar e desligar) um modem a cabo, modem dsl, roteador ou hub / switch.

No entanto, decidi postar aqui em resposta a um recente problema generalizado que acabei de experimentar. Temos vários armários de rede em vários edifícios.

A maioria deles conseguiu, switches de alta qualidade - gigabit, fibra entre edifícios e, por vezes, entre armários.

No fim de semana tivemos algum tipo de falha de energia. No entanto, a falha atingiu apenas um edifício, não todos os locais.

Depois disso, houve muitos problemas de rede. Problemas com impressoras, perda de conectividade e muito mais. Em todos os edifícios.

Parece que todos os equipamentos de rede gerenciados de "alta qualidade" estão bem. No entanto, em algumas áreas, temos alguns switches de nível de consumidor - não gerenciados. Por exemplo, um escritório grande que possui apenas uma rede, mas requer várias conexões. Agora, estamos gradualmente fazendo o caminho para todos esses switches (devido a problemas causados pelos usuários) e desligando-os. Isso corrige o problema para o usuário. O interruptor geralmente parece normal. Algumas delas todas as luzes estão acesas (quando não deveriam estar).

Então, por que todos esses interruptores começam a funcionar mal? Algum tipo de dados de roteamento falsos sendo empurrados para fora de um comutador com a falha de energia?

    
por Scott Szretter 26.10.2011 / 15:58

4 respostas

7

Vou invocar a Navalha de Occam nisso. Embora eu suponha que seja possível que alguns pacotes malformados específicos possam fazer com que seus switches de baixo custo caiam no modo de falha que você está descrevendo, eu consideraria essa uma causa muito improvável. Os switches que você está descrevendo como tendo problemas (switches pequenos e não gerenciados) provavelmente não terão implementações de árvore de abrangência, muito menos suporte para protocolos de roteamento dinâmico e comutação de camada 3. Esse tipo de switch deve ser "cego" para o conteúdo real dos quadros de sua comutação, além de usar os endereços MAC de origem e destino para tomar decisões de comutação.

Isso me faz acreditar que você teve um problema de poder mais amplo do que você imagina.

Seguindo uma suposição de problema de energia, eu diria que você está tendo problemas com os comutadores de baixo custo porque eles provavelmente são comutadores de baixa qualidade. Eu sei que isso soa banal, mas tem sido minha experiência com equipamentos de rede durante toda a minha carreira (com poucas exceções). Você geralmente recebe o que paga (e, embora algo possa ter um preço incorreto, o mercado classifica isso rapidamente).

Um switch de custo mais alto normalmente terá uma fonte de alimentação melhor e mais propensa a funcionar dentro das tolerâncias quando exposta a energia elétrica "incerta". Eu suspeito que as fontes de alimentação em seus switches de baixo custo provavelmente começaram a produzir energia ruim quando a energia da rede elétrica ficou fora do padrão. Nesse ponto, alguma parte dos "cérebros" do switch acabou em um cenário "isso nunca deveria acontecer", porque um ou mais trilhos de energia se afastaram demais da tolerância.

Um switch Ethernet normalmente não é um único ASIC executando o show inteiro, mas são tipicamente grupos de sistemas de ASICs que executam tarefas diferentes conectadas entre si. Sem conhecer a arquitetura do switch em questão, é difícil dizer algo definitivo. Eu tive experiências com um modelo de switch, muitos anos atrás, que usava um único ASIC para executar um grupo de 4 portas. Certos tipos de falhas causariam grupos de 4 portas no switch para "flake out", enquanto o resto do switch continuava funcionando bem. Uma falha parcial de um switch não é anormal na minha experiência.

No caso de sua falha, as partes do comutador que mantiveram as luzes acesas, por exemplo, continuavam funcionando bem. O hardware da interface física (os PHYs) provavelmente continuava funcionando bem (já que você provavelmente estava vendo "luzes" nas extremidades das conexões). Outra coisa, no entanto, não continuou funcionando direito e você acabou vendo uma falta de conectividade. Nos casos em que eu tive a sorte de pegar um switch "no ato" de falhar assim, eu pluguei meu laptop em uma porta "problemática" e observei (usando o Wireshark) uma rede totalmente "escura" sem quaisquer pacotes de transmissão ou o outro "ruído" comumente associado a uma "rede de trabalho" típica. Os pacotes transmitidos para essas portas nunca apareceram em outro lugar na rede - eles simplesmente caíram em um "buraco negro". Aposto que você veria algo semelhante em sua situação.

    
por 26.10.2011 / 16:58
1

Os switches da série Cisco 1900 foram notórios por isso há alguns anos.

Esses switches usavam 2 alimentações de energia internamente: 5 volts para CPU / backplane, 12 volts para memória CAM. Em um pequeno pico de energia, o 5 Volt permaneceu estável o suficiente para que o switch continuasse rodando, mas o 12 Volt caiu o suficiente para que as tabelas de memória do CAM fossem corrompidas. Infelizmente, não havia como a CPU do switch detectar a corrupção de memória que causou todo tipo de confusão com a comutação L2 e o ARP.

É por isso que colocamos um pequeno no-break em cada gabinete de correção. Isso foi muito mais barato do que redefinir todos os switches manualmente. (E lidar com os usuários chateados.)

A Cisco corrigiu isso em modelos posteriores. Já ouvi falar dos mesmos problemas com switches HP mais antigos.

Tenho certeza de que há muito hardware por perto, especialmente no segmento consumidor / soho, com problemas semelhantes. Uma fonte de alimentação de boa qualidade ainda é um dos componentes mais caros do dispositivo, então, normalmente, é o primeiro item a ser rebaixado quando os PHBs decidem que as margens do produto são muito baixas.

    
por 26.10.2011 / 17:55
0

Possivelmente algum erro de transmissão CRC / Jabber / STP / que os switches gerenciados possam "manipular". Os de nível de consumidor não conseguiam lidar com os dados tão falhados.

É posisível que não tenha nada a ver com isso e um usuário insolente tenha encontrado uma maneira de travar sua rede!

    
por 26.10.2011 / 16:54
0

A maioria dos problemas de rede que você verá com switches não gerenciados estão relacionados à tabela arp. Não há muito mais que dar errado nesse nível da rede. E deve ser relativamente fácil de testar usando arpping de vários locais na sua rede. Se estiver relacionado com arp, você encontrará algumas áreas de sua rede onde o arp ping não resolve.

Agora, se você estiver usando o STP nas partes gerenciadas da sua rede, existe a possibilidade de definir um link que deve estar ativo. Mas você deve ser capaz de descobrir isso a partir dos switches gerenciados. Seus switches não gerenciados não suportarão o STP, por isso não estarão participando.

    
por 26.10.2011 / 16:59