O que significa “erros de ECC de bit único detectados no controlador RAID”?

4

Eu tenho um Dell T7600 com um controlador RA H710P RAID e 4 unidades de 3 TB conectadas. Nos últimos meses, o controlador RAID tem relatado intermitentemente erros na inicialização: "nenhum dispositivo de inicialização encontrado", "o adaptador na base não está respondendo", discos freqüentemente relatados como ausentes ou com falha.

Eu já substituí o controlador RAID, os 4 discos rígidos e finalmente a placa-mãe do sistema.

Depois de substituir a placa-mãe e reiniciar algumas vezes, recebi o erro

Single bit ECC errors were detected on the RAID controller.
Please contact technical support to resolve this issue.

Após reiniciar cerca de 20 vezes, ainda não vi o erro do ECC. O sistema parece bem, exceto pelo fato de que os ventiladores de disco às vezes começam a explodir a todo vapor quando o sistema está completamente ocioso e não para até que eu reinicie.

Os erros de ECC na memória estão no controlador RAID? Ou, o controlador RAID mapeia na memória do sistema e os erros do ECC estão realmente na memória do sistema? Ou os erros de ECC no cache de 1 GB que residem no controlador RAID?

    
por jsp 07.02.2014 / 23:02

2 respostas

5

Esse erro corresponde ao módulo de cache no controlador. Neste ponto, você provavelmente precisará substituir a RAM ou o controlador PERC real. Este deve ser um trabalho de garantia padrão.

    
por 07.02.2014 / 23:17
1

A mensagem do controlador RAID “single bit error detected” é apenas informativa. Não é um erro de hardware nem um aviso adequado para entrar em contato com o fabricante para solicitar uma correção. A maioria das memórias disponíveis publicamente (RAM) sofre erros aleatoriamente (excluindo hardware militar). Em um ambiente de computação que é inaceitável, uma solução é fornecida: ECC. Acredito que seja a solução mais simples e barata para detectar erros de bit único e revertê-los. Portanto, um erro crítico é uma mensagem de erro com mais de 1 bit acontecendo. Isso pode exigir outras técnicas, como "ChipKill" (para que a placa de hardware possa desativar um chip que não deve mais ser confiável). Uma mensagem de erro de bit único quando detectada geralmente aciona uma atualização para um contador / registro de hardware interno. Apenas para manter algumas estatísticas. Mas eles não são erros que justificam a substituição de hardware. É por isso que o ECC é construído para.

A quantidade de erros de bit único pode variar. Eu tenho interesse neste assunto há 16 anos. E percebi que a quantidade cresce exponencialmente. Este valor se correlaciona apenas com outro parâmetro: a quantidade de tempo que o sistema esteve em execução (poder-em-horas). Os dois limiares que merecem menção são 18 meses (a curva exponencial aumenta) e 36 meses (dois erros de bit começam a aparecer). Outros parâmetros foram analisados, mas não há correlação alguma: marca, modelos, “produtos baratos / caros”, calor, operações de leitura / gravação. A chave é apenas o tempo (“power-on-hours”). Isso também pode indicar o uso de uma estratégia de “obsolescência planejada” aplicada ao hardware de computação. Assim, o sistema capitalista pode precisar renovar o hardware de computação a cada 3 anos, ou até 6 anos (com um acréscimo no orçamento de manutenção).

Você também menciona outros erros que, acredito, não estão diretamente relacionados à questão do ECC (sua pergunta).

    
por 23.08.2014 / 15:22