Soa como um problema de hardware.
Você adicionou alguma coisa ao sistema? Por exemplo. RAM, novo GPU, HDD, placas PCI?
Física:
- Verifique todos os cabos.
- Verifique a montagem da RAM.
- Verifique a montagem de todos os PCIs.
- Remontar CPU (se nada mais funcionar).
- Verifique as fontes de energia, tanto externas como internas.
[Editar]: E como apontado por @vonbrand
Assegure o arrefecimento, etc. e faça uma limpeza, se necessário.
Se você não for, verifique o status em lm_sensors e por exemplo adicione um sistema de alarme para valores críticos. Aqui você também pode verificar o status do ventilador - e talvez as tensões. Se nenhuma tensão mostrada, você pode verificar se o BIOS informa isso. Em seguida, verifique os papéis no seu HW que os níveis estão corretos. Veja abaixo a verificação do voltímetro.
Atualize o BIOS.
Você diz:
[…] cannot find anything of particular interest which would suggest why its going down.
Mas existem outros dados em
/var/log/messages
/var/log/debug
/var/log/kern.log
...
que sugerem problemas com o sistema na inicialização etc?
Você tem mcelog em execução ( Exame de verificação de máquina )? Se não instalar,
Verifique o HDD S.M.A.R.T. dados usando smartmontools. Execute memtest, stresstest, etc.
Verifique dmesg
durante a execução de testes.
Use um dos vários CDs de inicialização, por exemplo:
E faça testes neles que achar apropriados.
Se for um servidor do servidor - em um local de impedimento, verifique se não há zelador usando a tomada elétrica para recarregar o celular.
[Editar2]: PSU check.
Apenas uma nota extra no PSU check. Um teste offboard pode ser bom - neste caso, - se for um ATX -, você deve se lembrar de atalho Power on , (tipicamente verde), com ground, (tipicamente preto) , para fazer o PSU entrar no palco. (com um fio de reposição, clipe de papel, etc.)
Depois, você pode medir colocando um conector de voltímetro no terra (preto) e o outro nos coloridos. Então, se você ler um valor positivo fora de faixa de ± 5%, ou negativo fora de ± 10%, você estará com problemas. ( 4.1.4 Tolerâncias de Voltagem ). O 12V seria mais fácil para verificar qual deve estar na faixa de 11,40 a 12,60 volts. Em um ATX típico seria:
* Yellow: +12 V; value ⊆ { 11.40 , …, 12.60 }
* Red : + 5 V; value ⊆ { 4.75 , …, 5.50 }
* Orange: + 3.3V; value ⊆ { 3.135, …, 3.465}
* Brown : + 3.3V; value ⊆ { 3.135, …, 3.465}
* Blue : -12 V; value ⊆ {-13.2 , …, -10.8 }
Verifique o papel do seu fornecedor de PSU ou da especificação mais geral e as especificações do seu Mother Board.