Diagnosticar uma falha do servidor, possivelmente CPU temp

1

Eu tenho um desktop rodando como um servidor Ubuntu em outro escritório. Ultimamente está se fechando de vez em quando, e eu não estou certo de como diagnosticar isso. O syslog é assim:

May 20 15:42:35 hostname sensord: Chip: coretemp-isa-0000
May 20 15:42:35 hostname sensord: Adapter: ISA adapter
May 20 15:42:35 hostname sensord:   Core 0: 67.0 C
May 20 15:42:35 hostname sensord:   Core 1: 66.0 C
May 20 15:42:35 hostname sensord:   Core 2: 61.0 C
May 20 15:42:35 hostname sensord:   Core 3: 58.0 C
May 20 16:04:16 hostname kernel: [ 5243.049529] CPU0: Core temperature above threshold, cpu clock throttled (total events = 1)
May 20 16:04:16 hostname kernel: [ 5243.050011] CPU0: Core temperature/speed normal
May 20 16:05:48 hostname kernel: [ 5335.083540] CPU2: Core temperature above threshold, cpu clock throttled (total events = 1)
May 20 16:05:48 hostname kernel: [ 5335.084028] CPU2: Core temperature/speed normal
May 21 16:06:52 hostname kernel: [ 5399.816039] mce: [Hardware Error]: Machine check events logged

No começo eu suspeitava de um ventilador quebrado ou algo térmico, e ativava o sensord. Mas as temperaturas parecem estáveis ao longo do tempo.

Editar: Eu instalei o mcelog e o deamon está rodando. Quase esperando que isso aconteça novamente para ver se o mcelog faz algum sentido.

Atualizar

O mcelog indica que é um problema térmico, tenho logs como o abaixo, que correspondem aos tempos da tarefa cron de backup do servidor do Gitlab.

MCE 0
CPU 0 THERMAL EVENT TSC 16ec0aadec3a0
TIME 1401260314 Wed May 28 08:58:34 2014
Processor 0 heated above trip temperature. Throttling enabled.
Please check your system cooling. Performance will be impacted
STATUS 88020003 MCGSTATUS 0
MCGCAP 806 APICID 0 SOCKETID 0
CPUID Vendor Intel Family 6 Model 15
Hardware event. This is not a software error.

Eu também fiz alguns testes hoje, enfatizando o sistema em stress -c 4 -i 1 -m 1 -t 120 e rapidamente alcanço 100 C na temperatura da CPU.

coretemp-isa-0000
Adapter: ISA adapter
Core 0:      +100.0°C  (high = +84.0°C, crit = +100.0°C)
Core 1:       +96.0°C  (high = +84.0°C, crit = +100.0°C)
Core 2:       +85.0°C  (high = +84.0°C, crit = +100.0°C)
Core 3:       +79.0°C  (high = +84.0°C, crit = +100.0°C)

Eu suspeito que o dissipador de calor não esteja montado corretamente, e vou verificar isso quando encontrar tempo para isso.

Solução

Vou verificar a pasta de calor e a pia da CPU, como uma solução rápida.

Eu peguei um Dell PowerEdge R200 usado para substituir este servidor, e tentarei configurá-lo na próxima semana. Muito obrigado pelo conselho.

    
por Trygve 22.05.2014 / 14:37

2 respostas

1

Você provavelmente pode diagnosticar isso ... Logs indicam um problema térmico. Pasta de CPU, dissipador de calor, arrefecimento, etc.

Mas aqui está a resposta Pro :
Qual é o custo de reposição? O impacto do tempo de inatividade inesperado vale o suficiente para os usuários finais / comerciais simplesmente substituírem a configuração por hardware de classe de servidor em bom estado?

O tempo de interrupção necessário para fazer um diagnóstico adequado do hardware afetará negativamente os usuários?

Se sim, substitua-o ...

Se não, solucione problemas ... Tente testar a RAM conforme mencionado anteriormente. Além disso, veja se você pode induzir o mau comportamento com o utilitário de estresse ou com um diagnostic Live CD .

    
por 22.05.2014 / 15:00
1

O sistema está lhe dizendo que está registrando erros de hardware, você os viu?

May 21 16:06:52 hostname kernel: [ 5399.816039] mce: [Hardware Error]: Machine check events logged

Referência: página de manual do Ubuntu para o mcelog .

    
por 22.05.2014 / 14:44