Como encontrar o módulo de memória defeituoso da mensagem MCE?

7

Estou tentando entender a mensagem do MCE para descobrir qual módulo de memória é ruim em um servidor. Esta mensagem aparece em /var/log/kern.log em um servidor que congela duas vezes hoje.

Apr 13 22:39:22 mbox kernel: [36247975.116860] sbridge: HANDLING MCE MEMORY ERROR
Apr 13 22:39:22 mbox kernel: [36247975.116867] CPU 0: Machine Check Exception: 0 Bank 5: 8c00004000010090
Apr 13 22:39:22 mbox kernel: [36247975.116869] TSC 0 ADDR 4a0d75900 MISC 21405cdc86 PROCESSOR 0:206d7 TIME 1428957562 SOCKET 0 APIC 0
Apr 13 22:39:22 mbox kernel: [36247975.951013] EDAC MC0: 1 CE memory read error 

Eu suspeito de um módulo de memória ruim. O servidor é um Xeon E5-2650 2x com módulos de memória 8x8Go (8 slots de memória para cada cpu)

Aqui está a população do módulo de memória de lshw :

 *-memory:0
      description: System Memory
      physical id: 2d
      slot: System board or motherboard
    *-bank:0
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-197.A
         vendor: Kingston
         physical id: 0
         serial: B83AE5C2
         slot: P1_DIMMA1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:1
         description: DIMM Synchronous [empty]
         product: Dimm1_PartNum
         vendor: Dimm1_Manufacturer
         physical id: 1
         serial: Dimm1_SerNum
         slot: P1_DIMMA2
         width: 64 bits
    *-bank:2
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 2
         serial: EC309238
         slot: P1_DIMMB1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 3
         serial: Dimm4_SerNum
         slot: P1_DIMMB2
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 4
         serial: E9305438
         slot: P1_DIMMC1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 5
         serial: Dimm7_SerNum
         slot: P1_DIMMC2
         width: 64 bits
    *-bank:6
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 6
         serial: E7305738
         slot: P1_DIMMD1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm10_PartNum
         vendor: Dimm10_Manufacturer
         physical id: 7
         serial: Dimm10_SerNum
         slot: P1_DIMMD2
         width: 64 bits
 *-memory:1
      description: System Memory
      physical id: 3f
      slot: System board or motherboard
    *-bank:0
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-197.A
         vendor: Kingston
         physical id: 0
         serial: B63A08C3
         slot: P2_DIMME1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:1
         description: DIMM Synchronous [empty]
         product: Dimm1_PartNum
         vendor: Dimm1_Manufacturer
         physical id: 1
         serial: Dimm1_SerNum
         slot: P2_DIMME2
         width: 64 bits
    *-bank:2
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 2
         serial: EA309638
         slot: P2_DIMMF1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 3
         serial: Dimm4_SerNum
         slot: P2_DIMMF2
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 4
         serial: E7305938
         slot: P2_DIMMG1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 5
         serial: Dimm7_SerNum
         slot: P2_DIMMG2
         width: 64 bits
    *-bank:6
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 6
         serial: E7305B38
         slot: P2_DIMMH1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm10_PartNum
         vendor: Dimm10_Manufacturer
         physical id: 7
         serial: Dimm10_SerNum
         slot: P2_DIMMH2
         width: 64 bits
 *-memory:2 UNCLAIMED
      physical id: 7
 *-memory:3 UNCLAIMED
      physical id: 9

Como você pode notar, não há módulo de memória no banco # 5 que. Então, minha pergunta é: você concorda que esta mensagem é sobre falha de memória? E, em caso afirmativo, como posso encontrar qual módulo deve ser substituído?

    
por Matg 15.04.2015 / 17:38

3 respostas

8

Esses erros são provenientes do EDAC - Erro de detecção e correção edac_mc classe do dispositivo.

Os eventos que você está recebendo são eventos CE (Erros Corrigíveis). Estas são indicações de que um DIMM está começando a falhar.

O EDAC não informou nenhuma informação específica sobre a linha de memória ou canal a que se refere, por isso é difícil dizer qual deles substituir até que um falhe.

mas dê uma olhada em: / sys / devices / system / edac / mc / mc * e isso pode lhe dizer um pouco mais sobre qual linha / dimm que pode estar com defeito.

Por exemplo

ls -s /sys/devices/system/edac/mc/mc0 total 0 0 ce_count 0 csrow1 0 csrow4 0 csrow7 0 reset_counters 0 size_mb 0 ce_noinfo_count 0 csrow2 0 csrow5 0 device 0 sdram_scrub_rate 0 ue_count 0 csrow0 0 csrow3 0 csrow6 0 mc_name 0 seconds_since_reset 0 ue_noinfo_count

veja o campo ce_count.

em uma nota lateral:

O sistema ainda pode continuar a operar, mas com menos segurança. A manutenção preventiva e a substituição proativa de peças de DIMMs de memória que exibem CEs podem reduzir a probabilidade dos eventos do UE (erro incorrigível) e dos 'pânicos' do sistema.

mais informações sobre o edac aqui:

link

    
por 15.04.2015 / 19:56
1

Pode ajudar a instalar o mcelog e executá-lo como um daemon, pode ajudar a fornecer relatórios melhores. Eles ainda são enigmáticos, mas há um pouco mais de informação para encontrar o DIMM culpado.

O mcelog também pode lidar com problemas em tempo real desativando páginas com erros de memória excessivos e, assim, dando a você mais chances de manter a máquina em funcionamento por mais tempo até que você possa recuperá-la.

    
por 19.04.2015 / 22:43
1

Alguns fornecedores dizem que vários erros corrigíveis durante um determinado período de tempo não causam danos.

Por exemplo, a Oracle diz que substitui um DIMM quando um dos seguintes eventos ocorre:

  • Mais de 24 erros corrigíveis (CEs) se originam em 24 horas a partir de um único DIMM e nenhum outro DIMM está sendo exibido mais CEs.

  • O DIMM falha no teste de memória no BIOS devido à Memória Incorrigível Erros (UCEs).

  • Ocorrem UCEs e a investigação mostra que os erros originado da memória.

Observe 24 erros em 24 horas.

link

Além disso,

If more than one DIMM has experienced multiple CEs, other possible causes of CEs must be ruled out by a qualified Sun Support specialist before replacing any DIMMs.

No último ponto, a HP diz algo semelhante que pode ser apenas o firmware do servidor que detecta erroneamente erros de memória. Eles dizem que em muitos casos a atualização de firmware corrige alertas falsos positivos. Isso pode ser especialmente verdadeiro se você começar a receber MCEs de diferentes DIMMs.

    
por 27.04.2016 / 22:21