Eu tenho um desktop rodando como um servidor Ubuntu em outro escritório. Ultimamente está se fechando de vez em quando, e eu não estou certo de como diagnosticar isso. O syslog é assim:
May 20 15:42:35 hostname sensord: Chip: coretemp-isa-0000
May 20 15:42:35 hostname sensord: Adapter: ISA adapter
May 20 15:42:35 hostname sensord: Core 0: 67.0 C
May 20 15:42:35 hostname sensord: Core 1: 66.0 C
May 20 15:42:35 hostname sensord: Core 2: 61.0 C
May 20 15:42:35 hostname sensord: Core 3: 58.0 C
May 20 16:04:16 hostname kernel: [ 5243.049529] CPU0: Core temperature above threshold, cpu clock throttled (total events = 1)
May 20 16:04:16 hostname kernel: [ 5243.050011] CPU0: Core temperature/speed normal
May 20 16:05:48 hostname kernel: [ 5335.083540] CPU2: Core temperature above threshold, cpu clock throttled (total events = 1)
May 20 16:05:48 hostname kernel: [ 5335.084028] CPU2: Core temperature/speed normal
May 21 16:06:52 hostname kernel: [ 5399.816039] mce: [Hardware Error]: Machine check events logged
No começo eu suspeitava de um ventilador quebrado ou algo térmico, e ativava o sensord. Mas as temperaturas parecem estáveis ao longo do tempo.
Editar:
Eu instalei o mcelog e o deamon está rodando. Quase esperando que isso aconteça novamente para ver se o mcelog faz algum sentido.
Atualizar
O mcelog indica que é um problema térmico, tenho logs como o abaixo, que correspondem aos tempos da tarefa cron de backup do servidor do Gitlab.
MCE 0
CPU 0 THERMAL EVENT TSC 16ec0aadec3a0
TIME 1401260314 Wed May 28 08:58:34 2014
Processor 0 heated above trip temperature. Throttling enabled.
Please check your system cooling. Performance will be impacted
STATUS 88020003 MCGSTATUS 0
MCGCAP 806 APICID 0 SOCKETID 0
CPUID Vendor Intel Family 6 Model 15
Hardware event. This is not a software error.
Eu também fiz alguns testes hoje, enfatizando o sistema em stress -c 4 -i 1 -m 1 -t 120
e rapidamente alcanço 100 C na temperatura da CPU.
coretemp-isa-0000
Adapter: ISA adapter
Core 0: +100.0°C (high = +84.0°C, crit = +100.0°C)
Core 1: +96.0°C (high = +84.0°C, crit = +100.0°C)
Core 2: +85.0°C (high = +84.0°C, crit = +100.0°C)
Core 3: +79.0°C (high = +84.0°C, crit = +100.0°C)
Eu suspeito que o dissipador de calor não esteja montado corretamente, e vou verificar isso quando encontrar tempo para isso.
Solução
Vou verificar a pasta de calor e a pia da CPU, como uma solução rápida.
Eu peguei um Dell PowerEdge R200 usado para substituir este servidor, e tentarei configurá-lo na próxima semana. Muito obrigado pelo conselho.