É necessário gravar a RAM para o hardware de classe de servidor?

30

Considerando o fato de que muitos sistemas de classe de servidor são equipados com ECC RAM , é necessário ou útil para queimar os DIMMs de memória antes de sua implantação?

Eu encontrei um ambiente onde a all RAM do servidor é colocada através de um longo processo de burn-in / stress-tesing. Isso atrasou as implantações do sistema ocasionalmente e impactou o tempo de hardware.

O hardware do servidor é principalmente Supermicro , portanto, a RAM é originada de uma variedade de fornecedores; não diretamente do fabricante, como um Dell Poweredge ou HP ProLiant .

Este é um exercício útil? Na minha experiência passada, eu simplesmente usei RAM de fornecedor fora da caixa. Os testes de memória POST não captam a memória DOA? Já respondi a erros de ECC muito antes de um DIMM realmente falhar, pois os limites de ECC eram geralmente o gatilho para a colocação de garantia.

  • Você queima a sua RAM?
  • Em caso afirmativo, que método (s) você usa para realizar os testes?
  • Identificou algum problema antes da implantação?
  • O processo de gravação resultou em alguma estabilidade de plataforma adicional em comparação a não executar essa etapa?
  • O que você faz quando adiciona RAM a um servidor em execução existente?
por ewwhite 25.06.2013 / 05:05

7 respostas

23

Eu encontrei um documento da Kingston detalhando como eles funcionam com o Server Memory, I Acreditamos que este processo seria, normalmente, o mesmo para a maioria dos fabricantes conhecidos. Os chips de memória, assim como todos os dispositivos semicondutores, seguem um padrão particular de confiabilidade / falha conhecido como a curva da banheira:

O tempo é representado no eixo horizontal, começando com o embarque de fábrica e continuando através de três períodos de tempo distintos:

  • Primeiros anos de vida: a maioria das falhas ocorre durante o uso antecipado período. No entanto, com o passar do tempo, o número de falhas diminui rapidamente. O período de falha na vida prematura, mostrado em amarelo, é aproximadamente 3 meses.

  • Vida útil: Durante este período, as falhas são extremamente raras. o O período de vida útil é mostrado em azul e é estimado em mais de 20 anos.

  • Falhas no fim da vida útil: Eventualmente, produtos semicondutores desgastam e falhou. O período de fim de vida é mostrado em verde

Agora, porque Kingston observou que altas taxas de reprovação ocorreriam nos primeiros três meses (após esses três meses, a unidade é considerada boa até sua EOL cerca de 15 a 20 anos depois). Eles projetaram um teste usando uma unidade chamada KT2400 que testa brutalmente os módulos de memória do servidor por 24 horas a 100 graus Celsius em alta voltagem, pela qual todas as células de cada chip DRAM são continuamente exercitadas; este alto nível de teste de estresse tem o efeito de envelhecer os módulos em pelo menos três meses (como observado antes do período crítico em que a maioria dos módulos mostra falhas).

Os resultados foram:

In March 2004, Kingston began a six-month trial in which 100 percent of its server memory was tested in the KT2400. Results were closely monitored to measure the change in failures. In September 2004, after all the test data was compiled and analyzed, results showed that failures were reduced by 90 percent. These results exceeded expectations and represent a significant improvement for a product line that was already at the top of its class.

Então, por que a gravação na memória não é útil para a memória do servidor? Simplesmente, porque já é feito pelo seu fabricante!

    
por 25.06.2013 / 23:42
29

Não.

O objetivo de gravar em hardware é enfatizá-lo ao ponto de catalisar uma falha em um componente.

Fazer isso com discos rígidos mecânicos terá alguns resultados, mas isso não vai fazer muita coisa pela RAM. A natureza do componente é tal que os fatores ambientais e a idade são muito mais prováveis de serem a causa de falhas do que ler e gravar na RAM (mesmo com sua largura de banda máxima por algumas horas ou dias).

Supondo que a sua memória RAM é alta o suficiente para que a solda não derreta na primeira vez que você realmente começar a usá-la, um processo de burn-in não ajudará a encontrar defeitos.

    
por 25.06.2013 / 05:14
14

Compramos blades e geralmente compramos em um bloco razoavelmente grande de cada vez, por isso os instalamos e os instalamos ao longo de DAYS antes de nossas portas de rede estarem prontas / seguras. Então, usamos esse tempo para usar o memtest por cerca de 24 horas, às vezes mais se passarmos um final de semana - uma vez feito isso, o ESXi básico e o IP estão prontos para que o perfil do host seja aplicado quando a rede estiver ativa. Então, sim, vamos testá-lo, mais por oportunidade do que por necessidade, mas ele já pegou alguns DOIM DIMMs antes, e não sou eu fazendo isso fisicamente, então não preciso de nenhum esforço. Eu sou por isso.

    
por 25.06.2013 / 19:23
10

Bem, eu acho que depende exatamente de quais são seus processos. Eu sempre executo o MemTest86 na memória antes de colocá-lo em um sistema (servidor ou outro). Depois de ter um sistema instalado e funcionando, problemas causados por memória defeituosa podem ser difíceis de solucionar.

Quanto a "testes de estresse" na memória; Ainda tenho que ver por que isso seria útil, a menos que você esteja testando para fins de overclocking.

    
por 25.06.2013 / 06:45
5

Eu não, mas eu vi pessoas que fazem. Eu nunca os vi ganhar nada disso, acho que pode ser uma ressaca ou superstição, talvez.

Pessoalmente, sou como você, pois as taxas de erro de ECC são mais úteis para mim - supondo que a RAM não seja DOA, mas você sabe disso de qualquer forma.

    
por 25.06.2013 / 05:13
5

Para RAM não-ECC executando 30 minutos no memtest86 + é útil, pois normalmente não há um método confiável de detecção de erros de bits quando o sistema está em execução.
Blue-screen não é considerado método confiável ...
E a RAM levemente esquisita geralmente não aparece imediatamente, somente depois que o sistema viu alguma carga de memória completa e somente se os dados naquela RAM eram código que foi usado e depois travou. A corrupção de dados pode passar despercebida por longos períodos de tempo.

Para a RAM ECC, ela não fará nada que o controlador de memória não esteja fazendo, portanto, não faz sentido. É apenas uma perda de tempo.

Na minha experiência, as pessoas que insistem em se queimar normalmente são caras velhos que sempre fizeram assim e que continuam fazendo por hábito sem realmente pensarem as coisas como verdadeiras.
Ou eles são jovens, seguindo o procedimento prescrito, escritos por aqueles velhos.

    
por 25.06.2013 / 15:37
1

Depende.

Se você estiver implantando 50 000 novas RAMs e souber que esse hardware específico apresenta uma taxa de falha de 0,01% após operar menos de um dia, estatisticamente falando, haverá vários deles que falharão no primeiro dia. Queimando são para pegar isso. Com implementações nessa escala, espera-se uma falha, e não uma situação excepcional.

Se você está implantando apenas algumas centenas de itens, as estatísticas provavelmente estão do seu lado, já que você deve ter muito azar para obter peças com defeito.

    
por 25.06.2013 / 23:13