No meu juízo final. O que poderia fazer com que meu servidor fosse redefinido aleatoriamente?

Question

No meu juízo final. O que poderia fazer com que meu servidor fosse redefinido aleatoriamente?

2

Eu tenho um servidor que construí anos atrás e que funcionou como um campeão. Mas, nos últimos meses, começou a se tornar seriamente instável, sem nenhum padrão discernível. Eu tenho depurado e trocado partes sem sucesso. Eu substituí quase tudo no sistema que eu posso pensar que pode ser a causa salvar unidades usadas para armazenamento.

Observe que o sistema está executando o CentOS 7.5.

Os sintomas são que a máquina executará espontaneamente uma reinicialização a frio, como se a fonte de alimentação estivesse desligando ou houvesse uma perda súbita de energia. Pode acontecer uma vez a cada poucos dias ou às vezes duas vezes por dia. O sistema pode estar inativo ou com uma carga. Não há padrão.

Eu removi tudo menos o essencial. Note que eu substituí:

A placa-mãe, CPU, RAM e PSU.

Se algum dos palitos estavam com defeito, eu esperaria ver logs de erros ECC corrigidos / incorrigíveis, o que eu não faço. Se fosse a CPU, eu esperaria algo um pouco mais aleatório com algum registro de um possível pânico do kernel. Eu suspeitei que poderia ser uma falha com a fonte de alimentação e substituí-lo. O problema persistiu, então eu tentei substituir a placa-mãe. Nenhuma mudança.

O sistema foi configurado com dois processadores e 16 bastões de memória idêntica, então tentei remover uma CPU e metade da memória RAM, ver se ela falhava e, em seguida, trocar o outro conjunto. Nenhuma alteração nos sintomas.

Comecei a remover componentes extras e cheguei ao mínimo sem alterar os sintomas.

Nunca há nada sugerindo uma falha de hardware nos logs; eles simplesmente terminam no ponto de redefinição.
Não há nada nos logs do IPMI.
Não há nada nos registros do UPS (a remoção do no-break também não ajudou).
Os processadores não estão superaquecendo. Eu registrei lmsensors sem anormalidades.
Temperatura monitorada do sistema, CPU e memória Vcore, RPM do ventilador e voltagens PSU com logs ipmitool.
Todos os testes SMART informam PASSED.
Troquei o disco primário usado pelo SO (/ root, boot, swap) para outro SSD, espelhando-o com o mdadm e instalando o grub.
Ambos os arrays RAID (ver especificações abaixo) são ZFS e não relatam nenhuma falha. Não há problemas durante a verificação de podridão ou corrupção.

Estou agora com uma perda completa e total. Com exceção das poucas unidades restantes no sistema, eu fiquei sem coisas para tentar substituir o save pelo caso em si.

O que poderia estar causando meu servidor a ser redefinido? O que mais posso testar? A falha realmente estaria vindo de uma das unidades?

Atualmente, o sistema é especificado da seguinte forma:

Base components:

SuperMicro H8DG6-F (Motherboard)

1x AMD Opteron Processor 6328 (CPU)

16GB x 8 Hynix DDR3 ECC HMT42GR7BMR4C-G7 (Memory)

Storage:

1x Samsung SSD 850 PRO 128GB XFS (/ root, boot, swap)

2x Samsung SSD 850 PRO 512GB ZFS RAID-1 (/data)

8x Western Digital RED 4TB WD40EFRX-68WT0N0 ZFS RAID-Z3 (/backup)

The Western Digital RED drives are connected to the case backplane and are conencted to the onboard SAS controller. All if the SSDs are in a ToughArmor MB998SP-B backplane mounted in a 5.25" bay at the front of the case and are connected to the motherboard SATA controller.

Cooling:

NH-U12DO A3 (CPU)

Fans added to chipset heatsinks (they get very hot)

Small heatsink added to Intel Gigabit chip

Thermal paste on ALL heatsinks has been replaced with Noctua NT-H1 with the exception of the small heatsinks around the CPUs which have thermal pads

Case:

Supermicro SC743TQ-865B-SQ

Power Supply:

SuperMicro PWS-865-PQ 865W

UPS

APC Back UPS Pro BX1500M 1500VA 900W

power-supply-unit server-crashes

por Zhro 05.11.2018 / 08:09

0 respostas

Tags power-supply-unit server-crashes

Como desativar o Windows Defender no controlador de domínio? Identifica os principais processos quando o sistema geral tem grande utilização da CPU no servidor Ubuntu