Hardware congelado durante a atividade do disco

2

Eu criei um NAS baseado em Linux. Ele possui várias unidades de vários tamanhos e idades em uma configuração LVM, com 800 GB ou mais de dados. Os dados são servidos usando um servidor samba simples.

Isso estava funcionando perfeitamente, mas depois de movê-lo fisicamente, ele desenvolveu uma falha estranha: sempre que eu faço alguma coisa no servidor para causar atividade de disco, a máquina inteira congela hard . Isso tem o efeito de matar quaisquer conexões de rede abertas para a caixa e, geralmente, torná-lo inútil.

Se eu deixar a máquina por alguns minutos, ela parece vir novamente, mas obviamente isso não é realmente uma solução.

Não há mensagens de erro ou de aviso no syslog ou nos logs do kernel. Se eu ligar a máquina e deixá-la, ela funcionará por vários dias sem travá-la. Depois disso, parei de testar.

Ele não congela instantaneamente - obviamente ele não congela durante a inicialização, e eu normalmente consigo fazer login via SSH e começar a pesquisar alguns arquivos de log por alguns minutos antes de morrer.

Minha pergunta é:

Que testes de diagnóstico posso executar para determinar o caso?

    
por Thomi 06.04.2010 / 18:42

1 resposta

2

A maneira típica de depurar esse tipo de problema é um conjunto de kernel de depuração para a saída para a porta COM. Você conecta outro computador à porta e lê os logs. Dessa forma, você pode obter um feed do que acontece quando o sistema congela. Mas parece que é algum tipo de problema de driver / hardware, e isso pode ser muito difícil de depurar.

    
por 06.04.2010 / 20:12