Hoje em dia, sempre que uma configuração em funcionamento anterior começa a se comportar mal, eu nem me dou ao trabalho de ler logs ou algo assim primeiro. A qualidade do driver, etc., é hoje tão boa que a maioria dos bugs da morte súbita foi resolvida e algo de hardware é mais provável do que um bug de software. E mesmo o código mais perfeito não pode lutar contra problemas físicos.
Algum tempo atrás, meu laptop começou a agir de forma estranha. Enquanto assistia a um filme ou compilava código ou fazia qualquer coisa com uso de CPU relativamente alto, tudo subitamente ficava muito mais lento. Mover janelas levou entre 1 e 15 segundos. A freqüência do processador caiu de 2 GHz para 800 MHz e decidiu ficar lá. Até mesmo a temperatura ociosa estava em torno de + 60ºC. De vez em quando a coisa toda ficava bloqueada.
Depois de limpar a poeira dentro do laptop, as coisas voltaram ao normal. Temperatura de marcha lenta + 35-40 ° C, sem lentidão.
OK, esse foi bastante simples de rastrear devido ao calor e devido à quantidade excessiva de poeira dentro do laptop. : -)
Se algo mais complicado aparecer, eu geralmente deixo o memtest86 rodar durante a noite e ver se isso me dá algum resultado. Se isso não acontecer, eu inicio o cpuburn ou algum programa similar e verifico se isso faz com que meu computador falhe. Se isso não ajudar, eu continuo a torturar o disco rígido com o bonnie ++ ou o iozone e ver se isso causa alguma falha. Então eu passo para testes 3D, como jogar PPRacer.
Se eu não conseguir obter uma falha controlada depois de todos esses testes, vou examinar outras coisas mais obscuras. Talvez o USB autosuspend seja o culpado? Ou algo ainda mais estranho.
Em um caso, o computador travou toda vez que um software de webcam era iniciado. Depois de gastar muito tempo configurando os parâmetros do kernel e assim por diante, lsusb revelou algo embaraçoso. A webcam estava conectada a uma porta USB 1.1 em vez da porta USB 2.0. Depois de conectar a câmera à porta USB 2.0, ela começou a funcionar.