LInux: Como faço para diagnosticar / isolar o que está causando interrupções “aleatórias” e reinicializações espontâneas?

19

(originalmente publicado em serverfault )

Então, em vez de adivinhar qual é a causa (embora meu dinheiro esteja nos drivers da nvidia), onde começo a procurar definir alguns fatos?

Já passei por / var / log em várias ocasiões, mas há muitas coisas lá dentro e não consigo (ainda) identificar as partes importantes.


Histórico: a versão resumida

Eu mudei do WinXP para o Ubuntu Karmic logo depois que ele se tornou disponível.

Desde então, tive uma série de falhas aleatórias aparentemente que se manifestam como:

  • reinicialização espontânea
  • um bloqueio completo com meu teclado e mouse USB parando de responder (até ele acende todos os LEDs). Além disso, normalmente não consigo enviar ssh para a caixa quando isso acontece.

Eu fiz muitas pesquisas e a Nvidia parece ser a principal suspeita, mas não tenho ideia de por onde começar a procurar descobrir qual é a verdadeira causa.

Um usuário serverfault sugeriu verificar a RAM com MemtextX86 +. Nenhum erro encontrado. A monitoração da temperatura da placa de vídeo também foi sugerida, e estou investigando agora.

Diferente do que, alguém de sugestões?



Histórico: a versão longa

Às vezes, posso passar uma semana inteira sem um acidente e depois tenho 5 em 2 dias.

Motivado pelo desejo de eliminar possíveis suspeitos, fiz algumas alterações ao longo do tempo sem sucesso:

  • Originalmente eu usei o KVM para virtualização, agora uso o VirtualBox OSE
  • Eu tinha o NFS rodando no kernel mas agora uso o Samba
  • Eu estava usando o Compiz, mas desde então o desliguei
  • Eu passei do Karmic de 64 bits para o de 32 bits (por outros motivos também)
  • Eu já experimentei o Ubuntu, o Kubuntu e o Xubuntu. O mesmo problema a cada vez (embora ultimamente pareça ser mais frequente no Gnome do que no XFCE).
  • Eu rolei o driver Nvidia da versão 185 de volta para a versão 96 (Módulo de Kernel NVIDIA Linux x86 96.43.13 Qui Jun 25 18:42:21 PDT 2009). Isso parece ter reduzido a frequência de erros.


Em termos do que está sendo executado no momento, isso pode variar. Os itens a seguir são comuns, mas não estão necessariamente sendo executados em todos os acidentes:

  • Firefox 3.5
  • VirtualBox OSE com 1 ou 2 VMs do Windows XP
  • Skype
  • Rhythmbox ou Exaile


Meu hardware tem 2 - 3 anos de idade:

  • Core 2 Duo 6300
  • 4 GB de RAM
  • alguma raça de placa-mãe Intel desse vintage
  • uma placa de vídeo de cabeça dupla da Asus com chipset Nvdia GeForce 7300 GS
  • 2 x discos rígidos SATA
  • monitores duplos (por isso confio nos drivers nvidia proprietários)


Eu tenho mantido atualizado com as atualizações do meu sistema.

Espero que os dados acima possam levar alguém a sugerir um tipo específico de registro ou configuração que valeria a pena investigar.


Atualização 1

só teve um acidente no qual os alto-falantes enlouqueceram. Será que alguns googling e parece que o PulseAudio teve alguns problemas no passado. Ainda não tenho certeza se isso é relevante, mas o PulseAudio estará em execução toda vez que eu tiver uma falha.


Atualização 2

Seguir o link de @ CarlF para o Guia Debian Sysadmin levou-me à chave mágica sysrq, a qual tentarei na próxima falha. Não que isso me dê muitas pistas sobre a causa, mas pelo menos eu esperançosamente serei capaz de desligar graciosamente.


Atualização 3

lm-sensors informa minha GPU rodando a quase 70C / 158F - interessante. Se eu tivesse que adivinhar, diria que esta é uma pista importante.


Atualização 4

Acerte o interior do sistema com um airduster logo após minha última atualização - resultado líquido: apenas um acidente desde então. Vou chamar isso de problema térmico.

    
por LRE 07.02.2010 / 23:57

3 respostas

8

Há bons conselhos do Guia do Administrador do Debian aqui: link

    
por 08.02.2010 / 05:13
4

A primeira coisa que você pode querer verificar se há problemas de hardware durante a inicialização. O processo de inicialização registrará os dados do buffer de anel do kernel em /var/log/boot.log . Depois que o sistema é inicializado, novas mensagens são liberadas nesse buffer e você pode visualizar seu estado atual com o comando dmesg . Um log importante que você também vai querer investigar é /var/log/messages . Isso conterá registros de data e hora, instalações e prioridades dos erros e do aplicativo que os gerou. Ter um registro de data e hora disponível é um recurso inestimável ao depurar erros.

Os bloqueios aleatórios definitivamente soam relacionados ao hardware. Tente recolocar todos os hardwares na placa-mãe e faça uma execução memtest86 + .

    
por 08.02.2010 / 00:08
2

Já tentou recolocar sua memória, processador e outros chips? Além disso, você pode querer tentar executar outro sistema operacional (FreeDOS) para eliminar algumas possibilidades.

Como uma dica, você também deve ser capaz de usar dois monitores muito bem através do Gnome sem usar os drivers nvidia.

    
por 08.02.2010 / 00:03