Eu criei um NAS baseado em Linux. Ele possui várias unidades de vários tamanhos e idades em uma configuração LVM, com 800 GB ou mais de dados. Os dados são servidos usando um servidor samba simples.
Isso estava funcionando perfeitamente, mas depois de movê-lo fisicamente, ele desenvolveu uma falha estranha: sempre que eu faço alguma coisa no servidor para causar atividade de disco, a máquina inteira congela hard . Isso tem o efeito de matar quaisquer conexões de rede abertas para a caixa e, geralmente, torná-lo inútil.
Se eu deixar a máquina por alguns minutos, ela parece vir novamente, mas obviamente isso não é realmente uma solução.
Não há mensagens de erro ou de aviso no syslog ou nos logs do kernel. Se eu ligar a máquina e deixá-la, ela funcionará por vários dias sem travá-la. Depois disso, parei de testar.
Ele não congela instantaneamente - obviamente ele não congela durante a inicialização, e eu normalmente consigo fazer login via SSH e começar a pesquisar alguns arquivos de log por alguns minutos antes de morrer.
Minha pergunta é:
Que testes de diagnóstico posso executar para determinar o caso?