A importância da memória ECC

11

Os módulos de memória ECC são importantes em um servidor não crítico?

Eu estava pensando em conseguir um servidor dedicado de brinquedo para muitas coisas aleatórias e não críticas. Reinicializações esporádicas não são nada demais. Eu estou olhando para um provedor, mas os preços são insanamente baratos. Seu hardware soa como uma piada para qualquer caixa de servidor séria: processadores para desktop, RAM não-ECC, chassi sem nome, HDD SATA hotswap, etc. (bem, o preço justifica, eu acho).

Eu concordo com a memória ECC em qualquer servidor "sério", então estou pensando se isso é um grande problema ou não para os dispositivos "de brinquedo".

    
por PJK 05.02.2012 / 21:46

5 respostas

11

Dados publicados pela equipe de TI do CERN ( Integridade de dados ) sugeriria que a quantidade de erros que vem da RAM é bastante baixa. Você ainda precisa ponderar seus dados e o custo do hardware.

Você pode ler um pouco mais sobre isso em StorageMojo .

    
por 05.02.2012 / 23:46
10

A RAM ECC basicamente ajuda a evitar erros que ocorrem durante a leitura e gravação da RAM. A chance de realmente haver um erro é bem pequena, mas diferente de zero. Eu diria que, se você não está fazendo coisas críticas, você pode sair sem o ECC RAM - como eu disse, as chances de encontrar um erro que o ECC impediria são realmente muito pequenas.

    
por 05.02.2012 / 21:50
6

O que é um servidor não crítico? Um que pode falhar?

A RAM ECC é fundamental quando a confiabilidade da memória é fundamental.

Duas coisas crescem com o crescimento dos tamanhos de memória:

  • a dependência do software na memória, esp. software de servidor (por exemplo, cache)
  • a probabilidade de erro de memória (p = num_bits * p_bit_failure)

Esta apresentação da Intel no ECC relata estes fatos:

  • Taxa média de erro de memória para um servidor com 4 GB de memória em execução 24x7 é de 150 vezes por ano
  • ~ 4000 erros corrigíveis por módulo de memória por ano
  • Overclocking e idade do sistema aumentam muito as taxas de falha
  • Falhas recorrentes são comuns e acontecem rapidamente (97% ocorrem dentro de 10 dias da primeira falha) = > efeito de avalanche
  • Para um servidor ECC com duração de 3 a 5 anos, a chance de erro de memória incorrigível da falha do sistema é menor que 0,001%

Outra recente pesquisa do WISC mostra que o ECC é essencial para esses ZFS sistemas:

ZFS has no precautions for memory corruptions: bad data blocks are returned to the user or written to disk, file system operations fail, and many times the whole system crashes.

É importante notar que outros sistemas de arquivos são tão sensíveis a essa forma de corrupção de dados quanto o ZFS.

ECC é o que evita que você corra para esses problemas, quando possível, e em casos desastrosos, o que avisa sobre isso acontecer antes que seja tarde demais.

    
por 05.02.2014 / 14:35
1

Simplesmente não é tão importante. Se você precisava de 99,999% de tempo de atividade, você se preocuparia com isso. Além disso, você reinicializará com mais frequência do que erros de memória.

    
por 06.02.2012 / 05:46
1

Este estudo do Google de 2009 encontrou uma taxa de erro entre 25.000 e 70000 erros por bilhão de horas de dispositivo por megabit. Isso significa que para 8GiB de (usado) RAM havia aproximadamente 1,7 a 4,8 erros por hora.

O Bitflips é algo que existe e não deve ser ignorado assim que a integridade dos dados for importante.

No seu caso (coisas aleatórias, não críticas) seria provavelmente um exagero.

    
por 09.05.2018 / 17:34