Corrupção de memória aleatória não detectada por memtest86

0
  1. Thinkpad t520; Ubuntu 12.04.1 LTS; 3.2.0-33 genérico; 16 GB de RAM .
  2. Memtest86 + foi executado por 26 horas, 9 passagens, sem erros.
  3. Começou em "modo de recuperação": correu fsck todos os sistemas de arquivos - sem erros; "verificar todos os pacotes" - sem erros.
  4. Corrente de memória aleatória aparente : perl / R / chrome segfault de vez em quando, aparentemente de forma aleatória; sort(1) produz arquivos corrompidos não classificados.

O que poderia estar errado e como depurá-lo?

    
por sds 18.11.2012 / 05:00

2 respostas

1

A corrupção de memória aleatória não lhe diz que é com certeza o problema do módulo de memória, pode haver muitas outras razões. Começando com software e configuração ...

  • Você pode ter tido azar e sua árvore de pacotes é "1 em um milhão de chances" internamente consistente ", enquanto externamente inconsistente" (corrupção de pacotes e CRC resultando em um pacote válido) < - puramente teórico .
  • Usando pacotes de ramificação não estáveis com um bug (software, sistema ou kernel).
  • Usando pacotes de filiais estáveis com um bug (bug do sistema nas condições específicas de hardware e software) ou versões desatualizadas.
  • Vírus, que corrompe arquivos na memória, como bibliotecas já armazenadas em cache do disco rígido.
  • Problema no kernel - um de seus drivers de kernel não é tão estável quanto deveria ser. Exemplo? O driver do Virtualbox é conhecido por causar alguns problemas de memória aleatória no host. Outros drivers especialmente personalizados (ou beta) podem causar coisas ruins semelhantes (ou outras) acontecendo.
  • Dispositivos externos com defeito, seus drivers podem não fazer algumas verificações de integridade ... que não são necessárias para o hardware totalmente operacional.
  • Problemas de hardware, embora não exatamente o problema do módulo de memória. Dispositivos internos defeituosos - seus chips (como áudio / gráficos) ou placas pci / pcie podem estar corrompidos e podem fazer coisas ruins na memória do sistema, pois todos compartilham o acesso à memória em nível de hardware. Ou eles podem corromper outras partes, que corrompem a memória.
  • Problemas ambientais - Sua CPU ou pontes podem estar superaquecidas - (especialmente a ponte norte que conecta a CPU com a memória do sistema, mas ultimamente é combinada na CPU) - mas lembre-se, elas podem ficar superaquecidas por outras ações, como GPU - aplicativos com pouca experiência (para que você não receba nenhum erro no software de teste de memória em execução na sessão VGA).

Então - como você vê, existem muitas possibilidades diferentes, mas a maioria das coisas acima não acontece com frequência nesses casos. Eu recomendo que você tente executar o sistema a partir do LiveCD e verificar se há segfaults lá, se isso acontecer, tentando desconectar qualquer hardware que você realmente não precisa (ou desativando-o no BIOS / uefi), então - verificar o módulo de memória em outro computador e verificar o seu computador com um módulo de memória diferente.

    
por mrówa 23.11.2012 / 05:27
1

Existem outras ferramentas para testar RAM no Ubuntu. É possível que eles detectem erros que o Memtest86 + não faz, já que os erros dependem dos padrões gravados na memória.

MPrime é um popular testador de RAM e CPU. Se você usá-lo para testar a RAM, certifique-se de especificar manualmente a quantidade de memória a ser usada - caso contrário, o padrão é 1600 MB. Por exemplo,

Type of torture test to run (3): 13
Min FFT size (in K) (8): 
Max FFT size (in K) (4096): 
Memory to use (in MB, 0 = in-place FFTs) (1600): 15000
O

memtester é outro testador de RAM e está no repositório.

    
por Vincent Yu 21.11.2012 / 19:42