Diagnosticando problema de hardware no servidor Linux que é o Kernel Panicking

2

Temos um servidor que ocasionalmente entrou em pânico no kernel por um tempo agora que acreditamos ter um problema de hardware. Como você faria para solucionar problemas de hardware para os quais não tem acesso físico? Existe alguma ferramenta que eu possa usar dentro do próprio sistema operacional para diagnosticar diferentes partes do sistema para tentar descobrir o que está causando todo esse pânico?

    
por Jeremy Privett 29.03.2010 / 18:17

2 respostas

4

Bloqueando tudo que for revelado nos registros do sistema ou nas ferramentas de teste fornecidas pelo fornecedor (visor do painel frontal, Dell Diagnostics, etc.), a maioria dos procedimentos de diagnóstico exigirá acesso físico ao sistema.

Minha sugestão seria ter memtest86 ou memtest86 + executado no sistema: a maioria dos pan / crashes aleatórios são causados por RAM ruim e isso geralmente o captura.

    
por 29.03.2010 / 18:32
3

Você terá um tempo difícil para diagnosticar problemas de hardware sem acesso ao hardware; se não for óbvio nos registros ou por causa de ruídos de fumaça e crackly seguidos por brilhos de luz, então muita solução de problemas de hardware se resume à troca de peças até que o problema desapareça.

Coisa com o hardware é que quando você usa o software para solucionar o problema, ele só pode dizer o que é o problema, não o que pode ser o problema. Ou seja, memtest86 encontra um problema de memória definido, você tem um problema de memória definido, mas se memtest86 diz que não é um problema de memória, você ainda pode ter um problema de memória (teste de sistemas bem, mas só parou de bater depois de trocar o módulo).

É como pedir ao seu cérebro para se diagnosticar. Você não pode confiar nas conclusões. : -)

    
por 29.03.2010 / 18:40