O que é um servidor não crítico? Um que pode falhar?
A RAM ECC é fundamental quando a confiabilidade da memória é fundamental.
Duas coisas crescem com o crescimento dos tamanhos de memória:
- a dependência do software na memória, esp. software de servidor (por exemplo, cache)
- a probabilidade de erro de memória (p = num_bits * p_bit_failure)
Esta apresentação da Intel no ECC relata estes fatos:
- Taxa média de erro de memória para um servidor com 4 GB de memória em execução 24x7 é de 150 vezes por ano
- ~ 4000 erros corrigíveis por módulo de memória por ano
- Overclocking e idade do sistema aumentam muito as taxas de falha
- Falhas recorrentes são comuns e acontecem rapidamente (97% ocorrem dentro de 10 dias da primeira falha) = > efeito de avalanche
- Para um servidor ECC com duração de 3 a 5 anos, a chance de erro de memória incorrigível da falha do sistema é menor que 0,001%
Outra recente pesquisa do WISC mostra que o ECC é essencial para esses ZFS sistemas:
ZFS has no precautions for memory corruptions: bad data blocks are returned to the user or written to disk, file system operations fail, and many times the whole system crashes.
É importante notar que outros sistemas de arquivos são tão sensíveis a essa forma de corrupção de dados quanto o ZFS.
ECC é o que evita que você corra para esses problemas, quando possível, e em casos desastrosos, o que avisa sobre isso acontecer antes que seja tarde demais.