Primeiro, devo perguntar: "shutdowns"? Você quer dizer que a máquina reinicia ou realmente pára? Se ele parar, ele está mal configurado (talvez no BIOS) ou algo está ativamente desligando a máquina (por exemplo, init 0).
Se não, seu candidato principal seria / var / log / syslog e /var/log/kern.log, pois seu problema parece um kernel panic ou um software acionado por falha de hardware. É claro que, se o servidor executar algum serviço (por exemplo, apache), você poderá ter uma pista também.
Geralmente, em situações como essa, há entradas de log geradas, mas como a máquina está com dificuldades, ela não consegue gravar as entradas no disco. Se a caixa estiver colocada, é provável que ela esteja conectada a um console serial pelo parceiro de cores. É onde eu procuraria se não encontrasse nada de suspeito nos registros acima.
Se a máquina não estiver conectada a um console serial e não houver nada no log, talvez você queira considerar o envio de syslog para uma caixa diferente via rede. Talvez a interface de rede sobreviva um pouco mais e as mensagens de log possam ser lidas no servidor syslog. Dê uma olhada no rsyslog ou no syslog-ng.
ATUALIZAÇÃO:
Concordo com @Johann abaixo. A causa mais provável de parada é o watchdog de temperatura do processador. Tente verificar / traçar a temperatura na caixa via lmsensors ou smartctl (geralmente o mais fácil). Eu acho que collectd é inigualável em manter o controle de grande número de variáveis ao longo do tempo. Ele pode fazer tanto o IPMI quanto o lm-sensors e o hddtemp. Além disso, alguns eventos de parada de temperatura do BIOS: es são interrompidos.