Eu tenho uma atualização para esse problema. Finalmente, o problema foi encontrado e a causa foi um módulo DIMM defeituoso. Curiosamente, nenhum dos testes de diagnósticos da Dell revelou esse problema.
Estou executando o Ubuntu Server em um servidor Dell PowerEdge. Eu encontrei após a entrada de log do servidor dmesg
. O suporte Dell Pro solicitou a execução dos diagnósticos da DSET da Dell. Eles não encontraram nenhum problema de hardware relatado pela DSET e a pessoa de suporte disse que essa mensagem de log é um problema de geração de relatórios no Ubuntu. Isso pode ser um bug de software no Ubuntu?
Obrigado
Sami
[1457944.748752] sbridge: HANDLING MCE MEMORY ERROR<br>
[1457944.748761] CPU 1: Machine Check Exception: 0 Bank 10: 8c000046000800c1<br>
[1457944.748763] TSC 0 ADDR 2df41c3000 MISC 900080008000c8c PROCESSOR 0:306e4 TIME 1395313612 SOCKET 1 APIC 20<br>
[1457945.659958] EDAC MC1: 1 CE memory scrubbing error on CPU_SrcID#1_Channel#1_DIMM#0 (channel:1 slot:0 page:0x2df41c3 offset:0x0 grain:32 syndrome:0x0 - area:DRAM err_code:0008:00c1 socket:1 channel_mask:1 rank:0)<br>
Eu tenho uma atualização para esse problema. Finalmente, o problema foi encontrado e a causa foi um módulo DIMM defeituoso. Curiosamente, nenhum dos testes de diagnósticos da Dell revelou esse problema.
De acordo com a Dell, o software EDAC esconde o erro das próprias ferramentas de hardware da Dell. Você tem que colocar o módulo na lista negra para que ele passe.
link
Provavelmente, bug relacionado a hardware.
.