Como posso descobrir o que há de errado com minha memória RAM?

2

Eu recentemente atualizei a memória na minha máquina Ubuntu 16.04 de 4x8GB para 8x8GB. O varejista prometeu que a nova memória seria compatível com a minha configuração, no entanto, notei que htop , por vezes, mostra a memória de 64GB completa, às vezes apenas 48GB ou até 16GB, diferentes após cada inicialização. O sistema congela algumas vezes por dia. Depois de um desses congelamentos eu dei uma olhada no syslog:

Nov  7 13:08:09 embpc0032 kernel: [ 4524.820086] EDAC MC0: 7 CE memory read error on CPU_SrcID#0_Ha#0_Chan#3_DIMM#1 (channel:3 slot:1 page:0xb382e offset:0x8c0 grain:32 syndrome:0x0 -  OVERFLOW area:DRAM err_code:0001:0091 socket:0 ha:0 channel_mask:8 rank:4)
Nov  7 13:08:10 embpc0032 kernel: [ 4525.812100] EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
Nov  7 13:08:10 embpc0032 kernel: [ 4525.812107] EDAC sbridge MC0: CPU 0: Machine Check Event: 0 Bank 7: cc000b0000010091
Nov  7 13:08:10 embpc0032 kernel: [ 4525.812110] EDAC sbridge MC0: TSC 0 
Nov  7 13:08:10 embpc0032 kernel: [ 4525.812112] EDAC sbridge MC0: ADDR b382fcc0 EDAC sbridge MC0: MISC 14022a286 
Nov  7 13:08:10 embpc0032 kernel: [ 4525.812117] EDAC sbridge MC0: PROCESSOR 0:306e4 TIME 1510056490 SOCKET 0 APIC 0
Nov  7 13:08:10 embpc0032 kernel: [ 4525.820084] EDAC MC0: 44 CE memory read error on CPU_SrcID#0_Ha#0_Chan#3_DIMM#1 (channel:3 slot:1 page:0xb382f offset:0xcc0 grain:32 syndrome:0x0 -  OVERFLOW area:DRAM err_code:0001:0091 socket:0 ha:0 channel_mask:8 rank:4)
Nov  7 13:08:11 embpc0032 kernel: [ 4526.812091] EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
Nov  7 13:08:11 embpc0032 kernel: [ 4526.812098] EDAC sbridge MC0: CPU 0: Machine Check Event: 0 Bank 7: cc0001c000010091
Nov  7 13:08:11 embpc0032 kernel: [ 4526.812101] EDAC sbridge MC0: TSC 0 
Nov  7 13:08:11 embpc0032 kernel: [ 4526.812103] EDAC sbridge MC0: ADDR b382fcc0 EDAC sbridge MC0: MISC 214022a286 
Nov  7 13:08:11 embpc0032 kernel: [ 4526.812108] EDAC sbridge MC0: PROCESSOR 0:306e4 TIME 1510056491 SOCKET 0 APIC 0
Nov  7 13:08:11 embpc0032 kernel: [ 4526.820076] EDAC MC0: 7 CE memory read error on CPU_SrcID#0_Ha#0_Chan#3_DIMM#1 (channel:3 slot:1 page:0xb382f offset:0xcc0 grain:32 syndrome:0x0 -  OVERFLOW area:DRAM err_code:0001:0091 socket:0 ha:0 channel_mask:8 rank:4)
Nov  7 13:08:12 embpc0032 kernel: [ 4527.812083] EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
Nov  7 13:08:12 embpc0032 kernel: [ 4527.812091] EDAC sbridge MC0: CPU 0: Machine Check Event: 0 Bank 7: cc00048000010091
Nov  7 13:08:12 embpc0032 kernel: [ 4527.812093] EDAC sbridge MC0: TSC 0 
Nov  7 13:08:12 embpc0032 kernel: [ 4527.812096] EDAC sbridge MC0: ADDR b382fcc0 EDAC sbridge MC0: MISC 14022a286 
Nov  7 13:08:12 embpc0032 kernel: [ 4527.812101] EDAC sbridge MC0: PROCESSOR 0:306e4 TIME 1510056492 SOCKET 0 APIC 0
Nov  7 13:08:12 embpc0032 kernel: [ 4527.820096] EDAC MC0: 18 CE memory read error on CPU_SrcID#0_Ha#0_Chan#3_DIMM#1 (channel:3 slot:1 page:0xb382f offset:0xcc0 grain:32 syndrome:0x0 -  OVERFLOW area:DRAM err_code:0001:0091 socket:0 ha:0 channel_mask:8 rank:4)
Nov  7 13:08:13 embpc0032 kernel: [ 4528.812100] EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
Nov  7 13:08:13 embpc0032 kernel: [ 4528.812108] EDAC sbridge MC0: CPU 0: Machine Check Event: 0 Bank 7: cc0001c000010091
Nov  7 13:08:13 embpc0032 kernel: [ 4528.812110] EDAC sbridge MC0: TSC 0 
Nov  7 13:08:13 embpc0032 kernel: [ 4528.812112] EDAC sbridge MC0: ADDR b382fcc0 EDAC sbridge MC0: MISC 214022a286 
Nov  7 13:08:13 embpc0032 kernel: [ 4528.812117] EDAC sbridge MC0: PROCESSOR 0:306e4 TIME 1510056493 SOCKET 0 APIC 0

Depois disso, um monte de símbolos NULL no log, congelar e reiniciar. Qual poderia ser o problema? A que channel e slot se referem neste contexto? É uma placa-mãe de quatro canais (Fujitsu D3128-A2) equipada com DIMM.

E: eu desenterrei o manual:

É seguro dizer que no log de erros, channel:0 slot:0 se referiria ao que é chamado A1 no manual? Porque no log encontrei cerca de 4000 erros de memória que estavam todos em slot:1 em três canais, mas nunca em slot:0 . Enquanto toda a RAM que comprei nova reside nos slots que terminam com 2 no manual, então para mim parece que todos os erros provêm dos novos módulos e não de um único do antigo.

E: Eu vim trabalhar hoje e inicializei o computador. Esta foi a saída do lshw:

*-memory
      description: System Memory
      physical id: 1e
      slot: System board or motherboard
      size: 16GiB
    *-bank:0
         description: DIMM DDR3 800 MHz (1,2 ns)
         product: HMT41GR7AFR8C
         vendor: Hynix Semiconducto
         physical id: 0
         serial: 50404146
         slot: Node0_Dimm0
         size: 8GiB
         width: 64 bits
         clock: 800MHz (1.2ns)
    *-bank:1
         description: DIMM DDR3 800 MHz (1,2 ns)
         vendor: Undefined
         physical id: 1
         serial: 00000000
         slot: Node0_Dimm1
         size: 8GiB
         width: 64 bits
         clock: 800MHz (1.2ns)
    *-bank:2
         description: DIMM Synchronous [empty]
         product: Dimm2_PartNum
         vendor: Dimm2_Manufacturer
         physical id: 2
         serial: Dimm2_SerNum
         slot: Node0_Dimm2
         width: 64 bits
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm3_PartNum
         vendor: Dimm3_Manufacturer
         physical id: 3
         serial: Dimm3_SerNum
         slot: Node0_Dimm3
         width: 64 bits
    *-bank:4
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 4
         serial: Dimm4_SerNum
         slot: Node0_Dimm4
         width: 64 bits
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm5_PartNum
         vendor: Dimm5_Manufacturer
         physical id: 5
         serial: Dimm5_SerNum
         slot: Node0_Dimm5
         width: 64 bits
    *-bank:6
         description: DIMM Synchronous [empty]
         product: Dimm6_PartNum
         vendor: Dimm6_Manufacturer
         physical id: 6
         serial: Dimm6_SerNum
         slot: Node0_Dimm6
         width: 64 bits
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 7
         serial: Dimm7_SerNum
         slot: Node0_Dimm7
         width: 64 bits

Após uma reinicialização, esta foi a saída de lshw:

*-memory
      description: System Memory
      physical id: 1e
      slot: System board or motherboard
      size: 48GiB
    *-bank:0
         description: DIMM DDR3 1866 MHz (0,5 ns)
         product: HMT41GR7AFR8C
         vendor: Hynix Semiconducto
         physical id: 0
         serial: 50404146
         slot: Node0_Dimm0
         size: 8GiB
         width: 64 bits
         clock: 1866MHz (0.5ns)
    *-bank:1
         description: DIMM DDR3 1866 MHz (0,5 ns)
         vendor: Undefined
         physical id: 1
         serial: 00000000
         slot: Node0_Dimm1
         size: 8GiB
         width: 64 bits
         clock: 1866MHz (0.5ns)
    *-bank:2
         description: DIMM Synchronous [empty]
         product: Dimm2_PartNum
         vendor: Dimm2_Manufacturer
         physical id: 2
         serial: Dimm2_SerNum
         slot: Node0_Dimm2
         width: 64 bits
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm3_PartNum
         vendor: Dimm3_Manufacturer
         physical id: 3
         serial: Dimm3_SerNum
         slot: Node0_Dimm3
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1866 MHz (0,5 ns)
         product: HMT41GR7AFR8C
         vendor: Hynix Semiconducto
         physical id: 4
         serial: 50404181
         slot: Node0_Dimm4
         size: 8GiB
         width: 64 bits
         clock: 1866MHz (0.5ns)
    *-bank:5
         description: DIMM DDR3 1866 MHz (0,5 ns)
         vendor: Undefined
         physical id: 5
         serial: 00000000
         slot: Node0_Dimm5
         size: 8GiB
         width: 64 bits
         clock: 1866MHz (0.5ns)
    *-bank:6
         description: DIMM DDR3 1866 MHz (0,5 ns)
         product: HMT41GR7AFR8C
         vendor: Hynix Semiconducto
         physical id: 6
         serial: 50404153
         slot: Node0_Dimm6
         size: 8GiB
         width: 64 bits
         clock: 1866MHz (0.5ns)
    *-bank:7
         description: DIMM DDR3 1866 MHz (0,5 ns)
         vendor: Undefined
         physical id: 7
         serial: 00000000
         slot: Node0_Dimm7
         size: 8GiB
         width: 64 bits
         clock: 1866MHz (0.5ns)

Note como na primeira vez, os dois módulos que são reconhecidos são listados com estatísticas diferentes do que após a reinicialização (na verdade, são 1866 MHz).

    
por speedymcs 07.11.2017 / 09:48

1 resposta

4

Para solucionar esse problema ...

  1. primeiro recoloque todos os módulos de memória
  2. execute o teste de memória memtest86.com gratuito
  3. reconfigure os módulos de memória nos slots corretos
  4. testa novamente o teste memtest86

Reencaixar :

  • desligue o computador
  • toque no chassi de metal para dissipar qualquer carga estática
  • remova o cabo de alimentação CA
  • Pressione o botão liga / desliga para dissipar qualquer carga restante na fonte de alimentação
  • remova e recoloque TODOS os módulos de memória

Memtest86 :

  • acesse memtest86.com e faça o download do teste de memória gratuito
  • execute pelo menos um passe completo, mais se você tiver tempo
  • se você tiver uma falha, comece removendo 2 módulos de memória de cada vez e teste novamente
  • se você não tiver uma falha, leia a próxima seção sobre configuração de memória

Configuração :

A intercalação de memória é uma técnica moderna para acelerar o acesso à memória. Requer que a memória seja configurada usando pares iguais de módulos de memória. Seu sistema high-end parece ter 4 canais de memória ... A / B / C / D.

Pegue seus 4 módulos de memória originais e preencha todas as posições do módulo 1 primeiro, depois use os 4 novos módulos de memória e preencha as posições restantes do módulo 2 .

Execute novamente o teste do memtest86.

    
por heynnema 07.11.2017 / 14:55