Como investigar a causa do travamento total?

17

A minha máquina Arch, por vezes, trava, de repente não responde de forma alguma ao rato ou ao teclado. O cursor está congelado. Ctrl-Alt-Backsp não pára X11, e ctrl-alt-del não faz exatamente nada. Os gráficos de atividade de cpu, rede e disco em conky e icewm param a atualização. Em alguns minutos o ventilador liga. A única maneira de fazer com que o computador faça alguma coisa é desligar a energia.

Quando ele inicializa, os monitores de temperatura da CPU mostram 70 a 80C. Antes do enforcamento, eu costumava fazer atividades de baixa intensidade, como navegação na web, ficando em torno de 50C.

Os registros mostram nada de especial em comparação com um desligamento normal. Verificador de memória funciona bem com zero defeitos.

Como posso investigar por que desligou? Existe alguma informação extra que eu possa encontrar para uma pista? Existe alguma coisa menos drástica do que desligar para obter algum tipo de ação, se apenas uma concha limitada ou apenas bips, mas pode dar uma pista?

A máquina é um laptop Gateway P6860 de 17 "(volumoso mas poderoso) e está rodando o Arch 64bit, atualizado (em março de 2011). Eu tive Arch por muito tempo sem esse problema, mudei para o Ubuntu para cerca de uma semana, em seguida, recuou para uma nova instalação do Arch. Foi quando os enforcamentos começaram.

ATUALIZAÇÃO: Sim, com certeza está superaquecendo. A uma temperatura, o mouse e o teclado param de funcionar, às vezes tornando-se funcionais após vários minutos de resfriamento. Em uma temperatura mais alta, coisas piores acontecem, como falta de resposta total, incluindo ignorar o SysRq. Esta condição é seguida por um desligamento repentino. Eu resolvi o problema comprando um novo computador 8D

    
por DarenW 23.03.2011 / 05:07

2 respostas

6

A resposta de Frederik envolvendo magia SysRq e dumps do kernel irá funcionar se o kernel ainda estiver rodando e não estiver realmente travado. O kernel pode estar ocupado apenas por algum motivo.

O fato de não responder ao Ctrl-Alt-Del me diz que provavelmente não é o caso, e que a máquina está travando strong. Isso significa falha de hardware ou algo relacionado, como um driver ruim.

O seu teste de verificação de memória é bom, se você permitir que ele seja executado por tempo suficiente. Você também deve tentar outras coisas para tentar estressar o sistema, como StressLinux . Benchmarks de longa duração também são bons.

Outra coisa para tentar é inicializar o sistema com um live CD do Ubuntu e tentar usar o sistema normalmente. Se retornar ao Ubuntu temporariamente desse jeito não faz com que o problema se repita, há uma boa chance de que não seja um hardware realmente quebrado, mas uma das coisas relacionadas, como um driver ruim ou um kernel configurado incorretamente. É bem possível que uma distribuição mais popular como o Ubuntu possa ter uma configuração de kernel mais estável do que uma como o Arch, simplesmente devido ao maior número de máquinas que foram testadas durante a fase de teste da distribuição.

    
por 23.03.2011 / 11:58
11

Em relação ao congelamento, há algumas opções:

  • usando uma porta serial se sua caixa tiver um para obter o despejo adicionando console=ttyS0 às opções de inicialização, conforme descrito aqui . Você precisa de uma segunda máquina com uma porta serial e um cabo de modem nulo para capturar o arquivo de despejo.

  • usando o netconsole para obter o despejo pela rede, veja aqui .

  • Usando o kexec / kdump, você obtém um dump local, veja aqui .

Com relação ao problema de falta de energia, sugiro que você use a chave mágica do SysRq para 'S'ync os discos, 'U'mount-los e, em seguida, re'B'oot a caixa (as letras são aquelas que você deve digitar junto com alt-sysrq.

Edit: Se você postar o oops / trace no lkml, você deve usar uma versão recente (preferencialmente a mais recente) do kernel e nenhum módulo proprietário.

    
por 23.03.2011 / 06:03