Dois servidores HP DL165 bloqueando aleatoriamente, comutando os ventiladores para alta

1

Eu tenho um par de servidores blade HP DL165 G7 ProLiant em casa. Eu os comprei usados, então não há suporte restante. Uma delas é rodar um sistema FreeBSD (FreeNAS 9.10) e uma roda Linux (Ubuntu 16.04 LTS), ambas instalações bare-metal. Eles são em grande parte sistemas AMD dual-12-core idênticos com 48 GB de RAM; os periféricos diferem ligeiramente (discos rígidos, placa de entrada de TV, etc.) para os diferentes usos.

Em ocasiões aleatórias e bastante raras, chego em casa para encontrar os dois servidores sem resposta e os fãs ligados a toda velocidade, semelhante ao estado inicial de ativação. São sempre as duas unidades, não apenas uma. Eu não prestei atenção aos LEDs do painel frontal, a não ser que eles não estejam mais piscando. Nenhuma luz vermelha. O teclado e o monitor locais também não respondem. Nenhuma mensagem em todos os arquivos de log; eles terminam abruptamente sem nenhuma indicação de problema. Para redefinir, eu tenho que segurar o botão de energia para desligar, e depois ligá-los novamente. Eles voltam sempre sem problemas.

Assumindo que era uma falha aleatória, eu comprei um no-break (Tripp-Lite) e os movi por lá, em saídas comutadas separadas. Essa condição de bloqueio ainda ocorreu uma vez depois, mas não havia nada que eu pudesse atribuir a falha. O no-break não relatou nenhum problema, mas achei que talvez fosse pequeno demais para atender. Acontece com tanta frequência que não consegui isolar o problema.

Ontem à noite, a energia acabou completamente e o sistema mudou para a energia da bateria normalmente. Após 10 minutos de duração da bateria e com cerca de 60% + bateria ainda restante, eu estava em pé na frente do rack e prestes a iniciar o desligamento quando ouvi algo (eu acredito que o UPS) tensão muito breve (como um zumbido rápido) e ambos sistemas chutados para este estado bloqueado.

Isso acontece talvez uma ou duas vezes por mês no máximo, então não consigo identificar nada. Ambos os sistemas estão rodando em baixa utilização (o FreeNAS quase sempre é menor que 1.0 e o sistema Ubuntu está constantemente em torno de 2.0).

Como o sistema estava alimentado por bateria, a alimentação de entrada deveria estar livre de falhas proveniente do inversor do no-break. Porque o que quer que seja faz com que ambos os servidores caiam, mesmo que haja pouco em comum, qual poderia ser o problema? Falhando aleatoriamente na fonte de alimentação reduzindo a entrada para níveis de queda de energia?

Este modo de falha (não responde aos fãs em alta) é um problema documentado? Não encontrei nenhum exemplo disso, mas talvez esteja usando os termos de pesquisa incorretos.

    
por Calmor 11.01.2017 / 20:30

0 respostas