Estatísticas sobre o mau funcionamento da RAM

8

Alguém conhece alguma estatística ou estudo sobre a frequência com que os computadores têm RAM com mau funcionamento?

Atualização: Meu computador está bem! Eu não tenho problemas de RAM, estou interessado nas estatísticas. Eu recebo relatórios de bugs para o meu software, para o qual uma causa pode estar com problemas de RAM no computador do usuário, e gostaria de saber qual é a probabilidade disso.

Obrigado!

Carl

    
por Carl Seleborg 16.06.2009 / 14:45

7 respostas

3

De taxas de erro de DRAM de Robin Harris: Nightmare on DIMM rua :

A two-and-a-half year study of DRAM on 10s of thousands Google servers found DIMM error rates are hundreds to thousands of times higher than thought — a mean of 3,751 correctable errors per DIMM per year.

Harris cita um estudo realizado ao longo de 2,5 anos na frota de servidores do Google . Observe que os servidores geralmente usam o EEC RAM, que realiza alguma correção de erros. Computadores no nível do consumidor geralmente não têm isso.

O Berke Durak da Lambda Diode calcula :

First, let's assume you have a system with no error-correction nor parity. The probability that you'll experience a bit error during the time T will be 1-(1-p)^m .

For T=1 hour , p = 1.3e-12 and m = 4*2^30*8 that gives 0.044 or 4.4% . That is quite a high probability. Indeed, in one day, that leads to a probability of 66% and in 72 hours to a probability of 96% .

So the probability of having at least one bit error in 4 gigabytes of memory at sea level on planet Earth in 72 hours is over 95% .

Eu não vou rir da próxima vez que um colega disser "raios cósmicos" quando falharmos em identificar a causa de um acidente ...

    
por 24.06.2010 / 18:39
6

Em uma população de servidores da classe 36, vejo uma falha corrigível detectada pelo circuito ECC uma vez a cada 3 meses.

Se você suspeitar de falha de memória, você deve executar memtest86 , que vem incluso em praticamente todas as distro linux populares atualmente.

    
por 16.06.2009 / 14:50
2

Você pode inicializar o computador com memtest86 + e fazer um teste durante a noite. É assim que encontro problemas.

Sim, eu vi pedaços de memória ficarem ruins onde eles só iriam falhar com um padrão específico de gravações de memória. O BIOS do computador não detectou o problema, mas o memtest86 o encontrou em uma execução noturna.

Eu vi dois discos de memória RAM ficarem ruins em cerca de cinquenta computadores que usei nos últimos dez anos. Acontece, mas não com frequência.

    
por 16.06.2009 / 14:49
2

Você pode querer dar uma olhada em este estudo do Google :

On average, about one in three Google servers experienced a correctable memory error each year and one in a hundred an uncorrectable error

Mas eles falam sobre RAM ECC, não sua RAM diária de usuário

    
por 31.01.2010 / 16:33
2

Eu vi um punhado de módulos de memória falharem completamente em servidores operacionais na última década e um número um pouco maior de falhas ao fazer o Memtest86 gravar em testes de hardware recém-entregue. Estes são sistemas de servidor, quase todos os quais terão memória ECC de um tipo ou outro, então eu esperaria problemas muito mais freqüentes em sistemas cliente com RAM que não corrige erros. Eu não tenho uma enorme amostra para trabalhar, porém, temos algumas dúzias de servidores próprios e em termos de comissionamento de sistemas de clientes, eu diria que trabalhei em uma centena ou mais em um nível onde eu d realmente prestando atenção na RAM.

No lado do cliente, tenho um pouco mais de experiência em escala empresarial - fui engenheiro sênior de um grupo gerenciando 50k de PCs de usuários finais por alguns anos e nunca vimos falhas de RAM rígidas ou leves como um problema significativo, certamente Não foi algo que afetou qualquer porcentagem mensurável de sistemas. Isso não quer dizer que não tenha acontecido, apenas ficaria muito surpreso se fosse um problema que afetou > 1% dos desktops e notebooks da classe empresarial. Alguns modelos específicos demonstrariam taxas de falha realmente altas relacionadas ao controle de qualidade, o primeiro lote do IBM Thinkpad T30 teve um problema com o segundo slot DIMM que nos levou a reparar a substituição de algumas milhares de máquinas em um único ponto.

Esta postagem no blog da Larry Osterman, da Microsoft, de 2005, pode dar uma possível No entanto, a explicação para alguns deles - sua análise de alguns erros estranhos relatados no conjunto de dados razoavelmente grande que vem do Relatório de Erros do Windows indica que muitos desses problemas estranhos são causados por overclocking. Se um número significativo de seus usuários finais provavelmente estiver usando o kit de nível de consumidor com overclock, isso pode estar relacionado a seus erros.

    
por 31.01.2010 / 17:02
0

Você tem a opção de usar 'memória espelhada' em seu sistema - que diria se você tem problemas de memória ou não - com isso, há MUITO menos chance de que quaisquer erros sejam causados por problemas de memória física.

    
por 17.06.2009 / 11:08
-1

Se você estiver executando o Linux:

Se você não quiser reinicializar em memtest86 + , poderá obter alguns resultados executando o memtester para testar a memória para descobrir se está com defeito ou não. Ele faz um trabalho realisticamente bom para encontrar as falhas irregulares, bem como as falhas não determinísticas. Ele tem vários testes para capturar o limite da memória e produz um relatório detalhado de falhas localizadas, testes executados e o tempo necessário para localizar as falhas no computador. Não há necessidade de reiniciar você pode executá-lo em um sistema Linux em execução.

Não encontrei nenhum link para o aplicativo, mas aqui estão as informações do pacote debian :

    
por 16.06.2009 / 15:29

Tags