Solução de problemas incomuns de energia da sala do servidor. (Suspeitas de picos de energia ou picos) [fechado]

6

Temos passado por um problema muito estranho na sala de servidores do nosso novo escritório em todas as tomadas elétricas.

Especificamente, quando todos os equipamentos estão em funcionamento (ou seja, o sistema de ar condicionado, 2x servidores montados em rack, 5x switches PoE de 48 portas e também o sistema de acesso à porta - que tem suas baterias de backup e circuitos de controle principais sala de servidores) ocasionalmente vemos os servidores reiniciando espontaneamente, o sistema de acesso à porta é reinicializado e os comutadores PoE se movem simultaneamente para um estado não funcional por 20 minutos ou mais de cada vez. Quando isso acontece, todos os três sistemas são reinicializados simultaneamente. Todos os três sistemas estão no mesmo circuito.

Os servidores e switches estão sendo executados em um dispositivo UPS e o sistema de acesso à placa também possui uma bateria de reserva própria - portanto, uma simples perda momentânea de energia não explicaria isso, pois tudo deve continuar funcionando sem interrupção. . Nós desconectamos o no-break da parede e vimos os servidores continuarem a funcionar, como esperado - então o no-break parece estar funcionando corretamente no que diz respeito a falta de energia.

Nenhum dos disjuntores já disparou ou precisou ser reiniciado.

O sistema de ar condicionado aparentemente está em um circuito separado para os servidores e equipamentos de rede; no entanto, seus cabos de alimentação compartilham um conduíte com os cabos de alimentação que correm para as tomadas de parede usadas pelos servidores, etc. Pode haver um risco de uma tensão ser induzida de um circuito para o outro quando a CA é ligada ou desligada uns aos outros por alguns metros?

Falei com um dos eletricistas que estava tentando descobrir o que estava acontecendo e ele disse que, embora a unidade de ar condicionado esteja em um circuito separado para os servidores e outros sistemas, os dois circuitos compartilham um neutro comum - algo que ele pensou que poderia causar problemas. Esta é uma configuração normal ou seria considerada uma prática ruim ter algo como uma unidade CA compartilhando um neutro com um equipamento sensível em uma sala de servidores?

Atualmente, o problema desapareceu por conta própria. Os servidores pararam de reiniciar espontaneamente e os switches estão novamente on-line, mas nenhuma alteração real foi feita, portanto, o problema subjacente ainda está lá e provavelmente ressurgirá mais cedo ou mais tarde.

Considerando que estamos vendo vários sistemas com unidades de backup de bateria separadas sendo reinicializadas durante esses episódios, que explicações possíveis podem existir além de picos de energia ou picos de energia?

    
por Austin ''Danger'' Powers 29.12.2014 / 07:23

1 resposta

4

Embora não seja a resposta direta "aqui está o problema" que você esperava, aqui está minha sugestão.

Parece que, apesar de nobre, sua busca para descobrir o que está errado não será resolvida rapidamente por você.

Você pode fazer como outras pessoas sugeriram e tentar registrar tudo o que puder e esperar que um padrão surja.

Eu gosto da sugestão de derobert de contratar alguém para medir a qualidade da energia ...

No entanto, aqui está a minha sugestão real que você já fez um pouco. Deixe para os eletricistas.

Sério. Um eletricista qualificado (mesmo que você precise terceirizar) deve ser capaz de lhe dar a causa raiz SE é de natureza elétrica ou não. Eles podem testar cada circuito para se certificar de que não estão sobrecarregados (especialmente em picos / partidas), eles podem se certificar de que a fiação é adequada e os circuitos são dimensionados adequadamente para o que você está anexando a eles. etc etc.

Na maioria das vezes, a TI não tem seu próprio eletricista qualificado e muitas vezes gostamos apenas de "plugar coisas" e não percebemos se estamos usando os circuitos certos, equilibrando circuitos, etc.

Se o seu UPS suportar coleta de logs, eu o farei, se nada mais, para ajudar a comprovar o problema. Embora seu no-break possa não ser de alta qualidade o suficiente para compensar os picos / vales de forma adequada (rápida) o suficiente, isso não significa que seja a causa principal. Soa como um problema elétrico para mim. Se você está executando um bom on-line UPS e parece estar compensando a tensão de entrada corretamente (com base em seus registros), então seria estranho que todos os equipamentos de TI conectados a ele e o sistema de leitor de cartão fossem reinicializados ao mesmo tempo .

Fale com seu chefe e explique a questão em termos de precisar de um eletricista experiente para diagnosticar. Não é justo esperar que um eletricista configure o roteamento BGP e, inversamente, não espere que um administrador de sistema seja um eletricista qualificado.

    
por 02.01.2015 / 15:03