No meu juízo final. O que poderia fazer com que meu servidor fosse redefinido aleatoriamente?

2

Eu tenho um servidor que construí anos atrás e que funcionou como um campeão. Mas, nos últimos meses, começou a se tornar seriamente instável, sem nenhum padrão discernível. Eu tenho depurado e trocado partes sem sucesso. Eu substituí quase tudo no sistema que eu posso pensar que pode ser a causa salvar unidades usadas para armazenamento.

Observe que o sistema está executando o CentOS 7.5.

Os sintomas são que a máquina executará espontaneamente uma reinicialização a frio, como se a fonte de alimentação estivesse desligando ou houvesse uma perda súbita de energia. Pode acontecer uma vez a cada poucos dias ou às vezes duas vezes por dia. O sistema pode estar inativo ou com uma carga. Não há padrão.

Eu removi tudo menos o essencial. Note que eu substituí:

A placa-mãe, CPU, RAM e PSU.

Se algum dos palitos estavam com defeito, eu esperaria ver logs de erros ECC corrigidos / incorrigíveis, o que eu não faço. Se fosse a CPU, eu esperaria algo um pouco mais aleatório com algum registro de um possível pânico do kernel. Eu suspeitei que poderia ser uma falha com a fonte de alimentação e substituí-lo. O problema persistiu, então eu tentei substituir a placa-mãe. Nenhuma mudança.

O sistema foi configurado com dois processadores e 16 bastões de memória idêntica, então tentei remover uma CPU e metade da memória RAM, ver se ela falhava e, em seguida, trocar o outro conjunto. Nenhuma alteração nos sintomas.

Comecei a remover componentes extras e cheguei ao mínimo sem alterar os sintomas.

  • Nunca há nada sugerindo uma falha de hardware nos logs; eles simplesmente terminam no ponto de redefinição.
  • Não há nada nos logs do IPMI.
  • Não há nada nos registros do UPS (a remoção do no-break também não ajudou).
  • Os processadores não estão superaquecendo. Eu registrei lmsensors sem anormalidades.
  • Temperatura monitorada do sistema, CPU e memória Vcore, RPM do ventilador e voltagens PSU com logs ipmitool.
  • Todos os testes SMART informam PASSED.
  • Troquei o disco primário usado pelo SO (/ root, boot, swap) para outro SSD, espelhando-o com o mdadm e instalando o grub.
  • Ambos os arrays RAID (ver especificações abaixo) são ZFS e não relatam nenhuma falha. Não há problemas durante a verificação de podridão ou corrupção.

Estou agora com uma perda completa e total. Com exceção das poucas unidades restantes no sistema, eu fiquei sem coisas para tentar substituir o save pelo caso em si.

O que poderia estar causando meu servidor a ser redefinido? O que mais posso testar? A falha realmente estaria vindo de uma das unidades?

Atualmente, o sistema é especificado da seguinte forma:

Base components:

Storage:

The Western Digital RED drives are connected to the case backplane and are conencted to the onboard SAS controller. All if the SSDs are in a ToughArmor MB998SP-B backplane mounted in a 5.25" bay at the front of the case and are connected to the motherboard SATA controller.

Cooling:

  • NH-U12DO A3 (CPU)
  • Fans added to chipset heatsinks (they get very hot)
  • Small heatsink added to Intel Gigabit chip
  • Thermal paste on ALL heatsinks has been replaced with Noctua NT-H1 with the exception of the small heatsinks around the CPUs which have thermal pads

Case:

Power Supply:

UPS

    
por Zhro 05.11.2018 / 09:09

0 respostas