Como eu testo componentes de hardware para descobrir qual deles é ruim?

5

Pergunta

Como faço para testar componentes de hardware para descobrir qual deles é ruim?

Detalhes

Eu tenho uma máquina antiga executando o debian como um servidor de arquivos usando o samba. No outro dia, não consegui entrar no meu servidor de arquivos. Quando eu olhei para a tela no meu servidor Debian, isto é o que eu vi:

Ele diz que é um erro de hardware e parece que é um processador ruim. No entanto, eu não quero sair correndo e comprar uma nova CPU porque eu realmente não tenho ideia do que estou falando.

Aqui está o que eu fiz:

  • Testei a memória usando o memtest 86+ por 66 horas seguidas. Passou 65 vezes e encontrou 0 erros. Então eu acho que a memória ruim está fora de questão. No entanto, eu estava curioso para saber por que ele não travou durante essas 66 horas se houvesse algum outro erro no sistema.
  • Notei que ele dizia java Tainted , então achei que poderia ser um problema de java. Desativei o serviço CrashPlan Backup, pois ele usa java. O servidor funcionou muito bem durante 4 dias. (Geralmente ele falhava a cada 15 a 30 minutos). Durante o tempo em que eu tinha desligado, eu tinha dois computadores conectados ao servidor, obtinha 50 GB de vídeo HD, codificava e colocava de volta nos discos rígidos dos servidores. Não teve nenhum problema. Então, um dia depois, ele caiu novamente.

Devo apenas supor que é um problema da CPU, já que ele menciona isso?

Como faço para testar componentes de hardware para descobrir qual deles é ruim?

    
por zechdc 31.07.2012 / 17:40

2 respostas

7

Se o seu hardware for de um grande fornecedor, por exemplo, da HP, da Dell, eles podem ter ferramentas específicas para o que você procura. Eu costumava trabalhar com a HP e eles já têm ferramentas para relatar hardware ruim.

Se esse não for o caso, então será mais complicado (com base na minha experiência), você já começou a testar a memória, já que costuma ser um ponto de falha comum.

Agora, se você duvida de suas CPUs, você pode expô-las a um trabalho intensivo como compilar um kernel ou qualquer outra grande fonte como libreoffice, xorg, etc ... você pode usar afinidade de CPU se tiver várias CPUs.

Além disso, a mensagem de erro está sugerindo que você execute "mcelog --ascii", você poderia fazê-lo e tentar entender as mensagens, leia os dois links abaixo. Espero que eles o ajudem com o problema HW:

link

link

    
por 31.07.2012 / 18:29
4

Problemas de hardware em qualquer máquina podem ser problemáticos para rastrear, especialmente sistemas mais antigos.

Um MCE ou Machine Check Exception é um código de erro não legível, gerado pela própria CPU quando um erro de hardware é detectado. Isso pode incluir erros com a RAM, o cache do processador ou qualquer dispositivo no barramento do sistema. Localizar o problema em processadores mais antigos geralmente só é possível através de tentativa e erro (ou memória de um teste, se tiver sorte).

Alguns processadores mais novos fornecem MCEs um pouco mais inteligíveis, mas parece que o seu provavelmente é um AMD antigo. O Mcelog é um daemon do Linux que pode decodificar MCEs para os modernos processadores x86, que provavelmente seria sua única esperança de fazer algum sentido do MCE.

Sua melhor aposta, considerando o tempo que você já colocou nela, é substituir a Placa Mãe / CPU / Memória por uma configuração igualmente antiga e barata, mas que ainda funciona. :)

    
por 31.07.2012 / 20:59