RAM testa inconsistentemente - qual é o culpado mais provável? (ou seja, o que devo gastar dinheiro em substituir)

20
  • Placa-mãe: GA-B85M-DS3H-A
  • CPU: Core i5 4430
  • RAM: PNY XLR8 DDR3 32 GB (4x8 GB) 1600 MHz (MD32768K4D3-1600-X9)
  • PSU: EVGA 500 W1 80 +

O problema

Com todos os 32 GB de RAM instalados, o sistema falha no MemTest86 + 6.2 de forma consistente. A falha sempre ocorre durante a primeira passagem e os erros aumentam rapidamente para os milhões de erros. A tentativa de executar o Windows resulta em reinicializações aleatórias e erros de parada (como seria de se esperar com erros de RAM).

O que eu tentei

  • Teste um único módulo PNY de 8 GB no soquete DIMM1. Completa com sucesso 4 passagens do MemTest.
  • Teste um único módulo PNY de 8GB no soquete DIMM2. Completa com sucesso 4 passagens do MemTest.
  • Teste um único módulo PNY de 8 GB no soquete DIMM3. Completa com sucesso 4 passagens do MemTest.
  • Teste um único módulo PNY de 8GB no soquete DIMM4. Completa com sucesso 4 passagens do MemTest.
  • Teste todos os quatro DIMMs de 8GB PNY separadamente, individualmente, no soquete DIMM1. Todos os módulos completam com sucesso 4 passagens do MemTest.
  • Teste dois módulos PNY de 8 GB nos soquetes DIMM1 e DIMM2. Completa com sucesso 4 passagens do MemTest.
  • Teste dois módulos PNY de 8 GB nos soquetes DIMM3 e DIMM4. Completa com sucesso 4 passagens do MemTest.
  • Teste a placa-mãe com quatro DGBs de 2 GB em boas condições em todos os soquetes. Completa com sucesso 4 passagens do MemTest.
  • Troque a ordem dos DIMMs do PNY nos soquetes. Nenhuma mudança - erros do MemTest ainda ocorrem.
  • Aumentar a voltagem RAM da placa-mãe de 1,5 a 1,65 V. Nenhuma mudança - erros do MemTest ainda ocorrem.
  • Jogue com várias combinações das configurações manuais de RAM no utilitário de configuração - habilitando / desabilitando o perfil XMP, definindo a predefinição "maior estabilidade", etc. Sem alteração, os erros do MemTest ainda ocorrem.

Eu acho que posso excluir com segurança RAM ruim e soquetes ruins de RAM. O tempo apenas em que os testes do MemTest falham é se todos os quatro módulos de 8 GB estiverem instalados simultaneamente.

Eu medi as tensões que saem da fonte de alimentação e tudo parece estável mesmo com todos os quatro bastões instalados.

Enquanto escrevo isto, eu tentei uma última opção de reduzir manualmente a velocidade da RAM para 1066MHz no BIOS. Até agora, o MemTest completou um passe e está no segundo sem erros. (Todos os testes acima foram realizados na velocidade RAM de 1600MHz nativa.) Isso pode permitir que eu use o sistema, embora com velocidades de RAM um pouco mais lentas, mas isso não parece ser uma correção permanente.

Sempre que ocorrerem erros do MemTest, eles sempre ocorrerão na mesma posição exata no barramento de endereços de 64 bits:

Bit Error Mask: 00000000FF000000

Além disso, os erros NUNCA ocorrem abaixo da barreira de 4 GB. Em outras palavras, todos os erros ocorrem no espaço de endereço entre 4 GB e 32 GB.

Eu deduzo que isso seja algum tipo de interação estranha ou problema de temporização com a CPU e a RAM e a placa-mãe, já que os erros são muito consistentes, ocorrem apenas em uma configuração específica, parecem ser atenuados pela desaceleração do RAM, e só ocorrem acima da barreira de 4GB. Minha pergunta é: É mais provável que minha CPU ou minha placa-mãe seja a culpada?

Eu tenho a intenção de atualizar esta máquina para um Core i7-4790K, então se a CPU é a provável culpada (eu sei que o controlador de memória está na CPU nesses modelos mais novos) então funciona bem porque eu sou planejando atualizá-lo de qualquer maneira, mas estou imaginando se há uma chance de a própria placa-mãe também ser parte do problema. Ou seja, eu não gostaria de gastar o dinheiro no processador i7 apenas para experimentar o mesmo problema e descobrir que eu também tenho que substituir a placa-mãe ...

Conselhos?

EDIT: A velocidade mais lenta da RAM ainda produz erros, mas apenas quando o teste atinge a terceira passagem. Eu reiniciei o teste com apenas uma CPU ativa apenas para testar uma interação na própria CPU.

    
por fdmillion 26.03.2016 / 23:25

4 respostas

18

Isso não soa como se qualquer componente estivesse com defeito, em vez disso, você está usando uma combinação incompatível.

Ter vários soquetes no mesmo barramento de memória preenchido aumenta a capacitância em cada linha de dados e diminui o tempo de subida, o que pode fazer com que as transições cheguem atrasadas e sejam detectadas incorretamente. Este fenômeno é conhecido pelos engenheiros elétricos como "fan-out".

Isso é ainda mais complicado devido ao fan-out interno de um módulo de memória. O número e a topologia dos dispositivos DRAM no módulo, chamados "rank", afetarão quantos módulos você pode conectar com sucesso em paralelo.

Placas-mãe de servidor que suportam muitos soquetes de memória na verdade requerem memória em buffer, que usa uma rede em cascata de buffers para limitar o fan-out (e, portanto, capacitância) visto por cada um. Há atraso causado pelos próprios buffers, mas aumenta logaritmicamente com o número de cargas, enquanto que para capacitância de memória não armazenada aumenta linearmente.

A Wikipédia fala sobre isso: link

Alguns manuais da placa-mãe realmente chamam esse tipo de coisa. Para outros, você pode deduzir as informações das listas de compatibilidade de RAM. Como exemplo, a placa-mãe ASUS Z170-A mostra que dual rank (chamado DS = frente e verso no manual) só pode ser usado em dois slots ao mesmo tempo, ao contrário da capacidade de usar quatro DIMMs de uma só vez .

    
por 27.03.2016 / 05:14
9

Isso parece um problema no controlador de memória integrado do processador.

Nos sistemas modernos, as placas-mãe não desempenham um papel importante no gerenciamento de memória além de apenas fornecer um caminho entre os módulos de memória e o processador. A memória está diretamente conectada ao processador para minimizar a latência; o " northbridge " que conecta a memória ao processador em sistemas mais antigos agora faz parte do próprio processador. (O firmware ou PCH pode controlar como o processador executa a RAM, mas não faz sentido causar erros de bit do tipo que você descreve, pois é responsabilidade do processador.) Portanto, a primeira coisa que eu faço é d suspeito em uma situação como esta é um IMC com defeito.

Na verdade, eu ficaria muito surpreso se a placa-mãe ou o firmware do sistema fossem os culpados pelos problemas que você está enfrentando.

    
por 27.03.2016 / 00:41
4

Eu vejo algumas críticas negativas sobre o BIOS nessa placa-mãe. Eu começaria procurando por uma atualização do BIOS. Nunca economize na placa-mãe.

    
por 26.03.2016 / 23:49
1

É possível que a RAM também esteja com defeito, mesmo que não pareça ser. Eu tive um problema recente com meu servidor doméstico envolvendo um acidente fatal com um chá gelado ...

Eu passei por todo o processo de substituição de cada parte individualmente (2 CPUs, mobo, powersupply e 2 bancos de 16 GB (2x8 GB) de RAM) e tudo foi bem testado quando usei apenas um único banco de RAM com uma única CPU (exceto para 1 CPU que foi torrada).

Não importava qual configuração eu usava, sempre funcionava quando eu tinha uma única CPU e banco de RAM (fosse 16GB ou 32GB de RAM), mas quando eu colocava o 2ª CPU e dividir a RAM por 16 GB por banco, o servidor falhou ao inicializar.

Não foi até que eu substituí completamente um banco de RAM que ele finalmente inicializou e funcionou corretamente, e tem sido desde então.

tl; dr : como @moab declarou em seu comentário, você nunca pode dizer com certeza até testar todos os componentes em um sistema compatível

    
por 28.03.2016 / 15:32