Há bons conselhos do Guia do Administrador do Debian aqui: link
(originalmente publicado em serverfault )
Então, em vez de adivinhar qual é a causa (embora meu dinheiro esteja nos drivers da nvidia), onde começo a procurar definir alguns fatos?
Já passei por / var / log em várias ocasiões, mas há muitas coisas lá dentro e não consigo (ainda) identificar as partes importantes.
Histórico: a versão resumida
Eu mudei do WinXP para o Ubuntu Karmic logo depois que ele se tornou disponível.
Desde então, tive uma série de falhas aleatórias aparentemente que se manifestam como:
Eu fiz muitas pesquisas e a Nvidia parece ser a principal suspeita, mas não tenho ideia de por onde começar a procurar descobrir qual é a verdadeira causa.
Um usuário serverfault sugeriu verificar a RAM com MemtextX86 +. Nenhum erro encontrado. A monitoração da temperatura da placa de vídeo também foi sugerida, e estou investigando agora.
Diferente do que, alguém de sugestões?
Histórico: a versão longa
Às vezes, posso passar uma semana inteira sem um acidente e depois tenho 5 em 2 dias.
Motivado pelo desejo de eliminar possíveis suspeitos, fiz algumas alterações ao longo do tempo sem sucesso:
Em termos do que está sendo executado no momento, isso pode variar. Os itens a seguir são comuns, mas não estão necessariamente sendo executados em todos os acidentes:
Meu hardware tem 2 - 3 anos de idade:
Eu tenho mantido atualizado com as atualizações do meu sistema.
Espero que os dados acima possam levar alguém a sugerir um tipo específico de registro ou configuração que valeria a pena investigar.
Atualização 1
só teve um acidente no qual os alto-falantes enlouqueceram. Será que alguns googling e parece que o PulseAudio teve alguns problemas no passado. Ainda não tenho certeza se isso é relevante, mas o PulseAudio estará em execução toda vez que eu tiver uma falha.
Atualização 2
Seguir o link de @ CarlF para o Guia Debian Sysadmin levou-me à chave mágica sysrq, a qual tentarei na próxima falha. Não que isso me dê muitas pistas sobre a causa, mas pelo menos eu esperançosamente serei capaz de desligar graciosamente.
Atualização 3
lm-sensors informa minha GPU rodando a quase 70C / 158F - interessante. Se eu tivesse que adivinhar, diria que esta é uma pista importante.
Atualização 4
Acerte o interior do sistema com um airduster logo após minha última atualização - resultado líquido: apenas um acidente desde então. Vou chamar isso de problema térmico.
Há bons conselhos do Guia do Administrador do Debian aqui: link
A primeira coisa que você pode querer verificar se há problemas de hardware durante a inicialização. O processo de inicialização registrará os dados do buffer de anel do kernel em /var/log/boot.log
. Depois que o sistema é inicializado, novas mensagens são liberadas nesse buffer e você pode visualizar seu estado atual com o comando dmesg
. Um log importante que você também vai querer investigar é /var/log/messages
. Isso conterá registros de data e hora, instalações e prioridades dos erros e do aplicativo que os gerou. Ter um registro de data e hora disponível é um recurso inestimável ao depurar erros.
Os bloqueios aleatórios definitivamente soam relacionados ao hardware. Tente recolocar todos os hardwares na placa-mãe e faça uma execução memtest86 + .
Já tentou recolocar sua memória, processador e outros chips? Além disso, você pode querer tentar executar outro sistema operacional (FreeDOS) para eliminar algumas possibilidades.
Como uma dica, você também deve ser capaz de usar dois monitores muito bem através do Gnome sem usar os drivers nvidia.
Tags crash linux ubuntu ubuntu-9.10