Flipping de bits - detecção e razões

2

Cerca de uma semana atrás eu experimentei uma situação muito interessante. Eu tinha uma estação de trabalho antiga com placa-mãe Asus P5LD2 e 4 x 1 GB de memória DDR2 Kingston não registrada. Essa mesma máquina foi vítima de um ataque de energia há algum tempo atrás, IIRC 12-14 meses atrás. No momento do golpe de energia, o PSU era frito e o HDD morria. Eu substituí os dois, executei testes, incluindo memtest e tudo parecia bem. O usuário estava trabalhando feliz, até um dia na semana passada, quando encontrou alguns dados recentes de "corrupção" em alguns de seus arquivos. Eu investiguei o problema e consegui reduzi-lo à falha da placa-mãe. No entanto, a "corrupção de dados" foi bastante interessante e reproduzível:

  • copiando arquivos de texto do diretório local para outro diretório local e executando diff entre as duas versões, houve apenas 1 bit alterado em algum lugar aleatório no arquivo;
  • esse bit sempre foi o 6º de 8, exibido no editor de texto hexadecimal, ou seja, o hex 19 se torna hexágono 39;
  • o problema era reproduzível ao acessar montagens NFS e montagens locais. Os mesmos testes exatos repetidos de outros clientes não produziram diferenças;
  • ao copiar desta máquina pela rede com rsync -av , o comando falhou com Corrupted MAC on input. Disconnecting: Packet corrupt ;
  • tentou o mesmo MB, mas diferentes diferenças de configuração de memória - novamente;
  • memória antiga definida em outro Asus P5LD2 MB - sem diferenças;
  • O
  • memtest foi executado por mais de 24 horas - nenhum erro foi reportado.

Conclusão dos testes - o movimento de bits ocorre apenas nesta máquina exata, independentemente do conjunto de memória usado e da localização dos dados (local ou NFS).

Com base em todos os meus testes, os únicos componentes restantes na equação são a placa-mãe e a CPU.

Minha (s) pergunta (s) é:

  1. o que faz o bit flipping e como exatamente isso acontece?
  2. existe uma maneira de detectá-lo?
  3. como testar / sondar, quando memtest falha?

Eu ainda tenho a máquina incômoda interna e estou disposta a executar qualquer teste para saber mais sobre isso.

O sistema operacional é Ubuntu Lucid 10.04, 64 bits.

Editar Eu esqueci de mencionar que a maioria (se não todos) capacitores no MB são dobrados em cima, em vez de planos.

    
por grs 17.01.2013 / 22:02

1 resposta

1

Soa como um problema com a CPU acessando periféricos como o controlador de disco e a placa de rede. Pode ser o superaquecimento da ponte norte. Quando a CPU está quente, a ponte norte fica mais quente do que de outra forma. Também poderia ser o superaquecimento da CPU.

Durante o memtest, há um mínimo de E / S e um mínimo de trabalho na CPU.

I forgot to mention that most (if not all) capacitors on the MB where bended on top, instead of flat.

Isso fará com que a energia CC fornecida aos componentes, como RAM, CPU e northbridge, se torne ruidosa à medida que a carga aumenta. Isso poderia facilmente ser a causa do seu problema. Eu diria que a placa-mãe deve ser retirada.

    
por 17.01.2013 / 22:30