Eu tenho um servidor que construí anos atrás e que funcionou como um campeão. Mas, nos últimos meses, começou a se tornar seriamente instável, sem nenhum padrão discernível. Eu tenho depurado e trocado partes sem sucesso. Eu substituí quase tudo no sistema que eu posso pensar que pode ser a causa salvar unidades usadas para armazenamento.
Observe que o sistema está executando o CentOS 7.5.
Os sintomas são que a máquina executará espontaneamente uma reinicialização a frio, como se a fonte de alimentação estivesse desligando ou houvesse uma perda súbita de energia. Pode acontecer uma vez a cada poucos dias ou às vezes duas vezes por dia. O sistema pode estar inativo ou com uma carga. Não há padrão.
Eu removi tudo menos o essencial. Note que eu substituí:
A placa-mãe, CPU, RAM e PSU.
Se algum dos palitos estavam com defeito, eu esperaria ver logs de erros ECC corrigidos / incorrigíveis, o que eu não faço. Se fosse a CPU, eu esperaria algo um pouco mais aleatório com algum registro de um possível pânico do kernel. Eu suspeitei que poderia ser uma falha com a fonte de alimentação e substituí-lo. O problema persistiu, então eu tentei substituir a placa-mãe. Nenhuma mudança.
O sistema foi configurado com dois processadores e 16 bastões de memória idêntica, então tentei remover uma CPU e metade da memória RAM, ver se ela falhava e, em seguida, trocar o outro conjunto. Nenhuma alteração nos sintomas.
Comecei a remover componentes extras e cheguei ao mínimo sem alterar os sintomas.
Estou agora com uma perda completa e total. Com exceção das poucas unidades restantes no sistema, eu fiquei sem coisas para tentar substituir o save pelo caso em si.
O que poderia estar causando meu servidor a ser redefinido? O que mais posso testar? A falha realmente estaria vindo de uma das unidades?
Atualmente, o sistema é especificado da seguinte forma:
Base components:
- SuperMicro H8DG6-F (Motherboard)
- 1x AMD Opteron Processor 6328 (CPU)
- 16GB x 8 Hynix DDR3 ECC HMT42GR7BMR4C-G7 (Memory)
Storage:
- 1x Samsung SSD 850 PRO 128GB XFS (/ root, boot, swap)
- 2x Samsung SSD 850 PRO 512GB ZFS RAID-1 (/data)
- 8x Western Digital RED 4TB WD40EFRX-68WT0N0 ZFS RAID-Z3 (/backup)
The Western Digital RED drives are connected to the case backplane and are conencted to the onboard SAS controller. All if the SSDs are in a ToughArmor MB998SP-B backplane mounted in a 5.25" bay at the front of the case and are connected to the motherboard SATA controller.
Cooling:
- NH-U12DO A3 (CPU)
- Fans added to chipset heatsinks (they get very hot)
- Small heatsink added to Intel Gigabit chip
- Thermal paste on ALL heatsinks has been replaced with Noctua NT-H1 with the exception of the small heatsinks around the CPUs which have thermal pads
Case:
Power Supply:
UPS