Como solucionar um problema de hardware no linux?

3

Só para notar que não estou tendo um problema no momento, mas já tive isso, por isso despertou minha curiosidade ...

Quando um computador é bloqueado repentinamente para que o caps flashs bloqueie incessantemente e a única possibilidade de reiniciar ... como você resolve o que está causando isso? No Windows, haveria alguns erros no log de eventos ... no Linux, parece que não há nenhuma oportunidade para que nada seja gravado no log, dificultando a solução de problemas ...

Neste caso, como você resolveria o problema através do linux?

    
por Jack 04.05.2010 / 14:49

5 respostas

4

Tente inicializar o memtest86 + a partir da mídia inicializável e veja o que ele diz sobre a integridade do seu subsistema de memória e memória.

Além disso, a última tarefa iniciada pode ser registrada no Cron em / var / log / syslog ou / var / log / messages.

Caso contrário, e depurando esse problema continuamente, você pode configurar o auditd e uma tarefa cron com ps para registrar a atividade do sistema e quais tarefas estão sendo executadas continuamente.

    
por 04.05.2010 / 15:01
3

Os dispositivos Kernal reportarão problemas para dmesg , que podem ser registrados separadamente também, ou em kern.log .

Para problemas sérios, um diagnóstico do POST placa pode ser usada.

    
por 04.05.2010 / 17:28
2

Logs são o primeiro lugar para procurar, como diz o kmarsh, mas se os logs não dizem muito no caso de uma falha séria de hardware, então não importa qual sistema operacional você usa, é preciso apenas um pouco de old school tentativa e erro.

Determine se é um problema de hardware executando um live CD, caso contrário, pode ser um problema de driver diagnosticado incorretamente como falha de hardware.

Os bloqueios de HW são aleatórios, mas frequentes. Eu começaria com a remoção de placas gráficas (use cartões on-board ou backup), placas de rede ou modems (gasp) se você tiver algum, um de cada vez, até identificar o culpado. Corra com um memory stick de cada vez (se tiver x2) ou troque por outros sticks durante o teste.

Seu PSU também pode estar falhando, às vezes, adicionar um novo cartão consome sua energia, privando a CPU da CPU se a sua PSU não for potente o suficiente, causando falhas aleatórias.

Se nada mais der uma pista, pode ser sua placa principal (geralmente corrosão se for 2 + anos dependendo da umidade em que você mora) ou CPU.

Use o software para monitorar a temperatura da CPU, o superaquecimento também pode causar bloqueios.

Depois de tentar tudo sob o sol, sem sorte, pode ser hora de um novo PC;)

    
por 04.05.2010 / 15:26
2

Na maioria dos linux hoje, você deve ter um log do MCE (Machine Check Exception) que pode ser decodificado para encontrar os erros reais de hardware ( link ). Além disso, você pode executar um Kernel Crash Dump, um kernel que executa o kernel do Linux que você está usando diariamente, e com isso, capture o incidente e depure a causa

por 06.05.2010 / 00:15
0

Hoje em dia, sempre que uma configuração em funcionamento anterior começa a se comportar mal, eu nem me dou ao trabalho de ler logs ou algo assim primeiro. A qualidade do driver, etc., é hoje tão boa que a maioria dos bugs da morte súbita foi resolvida e algo de hardware é mais provável do que um bug de software. E mesmo o código mais perfeito não pode lutar contra problemas físicos.

Algum tempo atrás, meu laptop começou a agir de forma estranha. Enquanto assistia a um filme ou compilava código ou fazia qualquer coisa com uso de CPU relativamente alto, tudo subitamente ficava muito mais lento. Mover janelas levou entre 1 e 15 segundos. A freqüência do processador caiu de 2 GHz para 800 MHz e decidiu ficar lá. Até mesmo a temperatura ociosa estava em torno de + 60ºC. De vez em quando a coisa toda ficava bloqueada.

Depois de limpar a poeira dentro do laptop, as coisas voltaram ao normal. Temperatura de marcha lenta + 35-40 ° C, sem lentidão.

OK, esse foi bastante simples de rastrear devido ao calor e devido à quantidade excessiva de poeira dentro do laptop. : -)

Se algo mais complicado aparecer, eu geralmente deixo o memtest86 rodar durante a noite e ver se isso me dá algum resultado. Se isso não acontecer, eu inicio o cpuburn ou algum programa similar e verifico se isso faz com que meu computador falhe. Se isso não ajudar, eu continuo a torturar o disco rígido com o bonnie ++ ou o iozone e ver se isso causa alguma falha. Então eu passo para testes 3D, como jogar PPRacer.

Se eu não conseguir obter uma falha controlada depois de todos esses testes, vou examinar outras coisas mais obscuras. Talvez o USB autosuspend seja o culpado? Ou algo ainda mais estranho.

Em um caso, o computador travou toda vez que um software de webcam era iniciado. Depois de gastar muito tempo configurando os parâmetros do kernel e assim por diante, lsusb revelou algo embaraçoso. A webcam estava conectada a uma porta USB 1.1 em vez da porta USB 2.0. Depois de conectar a câmera à porta USB 2.0, ela começou a funcionar.

    
por 30.07.2010 / 09:25