Vou invocar a Navalha de Occam nisso. Embora eu suponha que seja possível que alguns pacotes malformados específicos possam fazer com que seus switches de baixo custo caiam no modo de falha que você está descrevendo, eu consideraria essa uma causa muito improvável. Os switches que você está descrevendo como tendo problemas (switches pequenos e não gerenciados) provavelmente não terão implementações de árvore de abrangência, muito menos suporte para protocolos de roteamento dinâmico e comutação de camada 3. Esse tipo de switch deve ser "cego" para o conteúdo real dos quadros de sua comutação, além de usar os endereços MAC de origem e destino para tomar decisões de comutação.
Isso me faz acreditar que você teve um problema de poder mais amplo do que você imagina.
Seguindo uma suposição de problema de energia, eu diria que você está tendo problemas com os comutadores de baixo custo porque eles provavelmente são comutadores de baixa qualidade. Eu sei que isso soa banal, mas tem sido minha experiência com equipamentos de rede durante toda a minha carreira (com poucas exceções). Você geralmente recebe o que paga (e, embora algo possa ter um preço incorreto, o mercado classifica isso rapidamente).
Um switch de custo mais alto normalmente terá uma fonte de alimentação melhor e mais propensa a funcionar dentro das tolerâncias quando exposta a energia elétrica "incerta". Eu suspeito que as fontes de alimentação em seus switches de baixo custo provavelmente começaram a produzir energia ruim quando a energia da rede elétrica ficou fora do padrão. Nesse ponto, alguma parte dos "cérebros" do switch acabou em um cenário "isso nunca deveria acontecer", porque um ou mais trilhos de energia se afastaram demais da tolerância.
Um switch Ethernet normalmente não é um único ASIC executando o show inteiro, mas são tipicamente grupos de sistemas de ASICs que executam tarefas diferentes conectadas entre si. Sem conhecer a arquitetura do switch em questão, é difícil dizer algo definitivo. Eu tive experiências com um modelo de switch, muitos anos atrás, que usava um único ASIC para executar um grupo de 4 portas. Certos tipos de falhas causariam grupos de 4 portas no switch para "flake out", enquanto o resto do switch continuava funcionando bem. Uma falha parcial de um switch não é anormal na minha experiência.
No caso de sua falha, as partes do comutador que mantiveram as luzes acesas, por exemplo, continuavam funcionando bem. O hardware da interface física (os PHYs) provavelmente continuava funcionando bem (já que você provavelmente estava vendo "luzes" nas extremidades das conexões). Outra coisa, no entanto, não continuou funcionando direito e você acabou vendo uma falta de conectividade. Nos casos em que eu tive a sorte de pegar um switch "no ato" de falhar assim, eu pluguei meu laptop em uma porta "problemática" e observei (usando o Wireshark) uma rede totalmente "escura" sem quaisquer pacotes de transmissão ou o outro "ruído" comumente associado a uma "rede de trabalho" típica. Os pacotes transmitidos para essas portas nunca apareceram em outro lugar na rede - eles simplesmente caíram em um "buraco negro". Aposto que você veria algo semelhante em sua situação.