LInux: Como faço para diagnosticar / isolar o que está causando interrupções “aleatórias” e reinicializações espontâneas?

2

Então, em vez de adivinhar qual é a causa (embora meu dinheiro esteja nos drivers da nvidia), por onde começo a procurar apurar alguns fatos?

Já passei por / var / log em várias ocasiões, mas há muitas coisas lá dentro e não consigo (ainda) identificar as partes importantes.


Histórico: a versão resumida

Eu mudei do WinXP para o Ubuntu Karmic logo depois que ele se tornou disponível.

Desde então, tive uma série de falhas aleatórias aparentemente que se manifestam como:

  • reinicialização espontânea
  • um bloqueio completo com meu teclado e mouse USB parando de responder (até ele acende todos os LEDs). Além disso, normalmente não consigo enviar ssh para a caixa quando isso acontece.

Eu fiz muitas pesquisas e a Nvidia parece ser a principal suspeita, mas não tenho ideia de por onde começar a procurar descobrir qual é a verdadeira causa.

Sugestões?



Histórico: a versão longa

Às vezes, posso passar uma semana inteira sem um acidente e depois tenho 5 em 2 dias.

Motivado pelo desejo de eliminar possíveis suspeitos, fiz algumas alterações ao longo do tempo sem sucesso:

  • Originalmente eu usei o KVM para virtualização, agora uso o VirtualBox OSE
  • Eu tinha o NFS rodando no kernel mas agora uso o Samba
  • Eu estava usando o Compiz, mas desde então o desliguei
  • Eu passei do Karmic de 64 bits para o de 32 bits (por outros motivos também)
  • Eu já experimentei o Ubuntu, o Kubuntu e o Xubuntu. O mesmo problema a cada vez.
  • Eu rolei o driver Nvidia da versão 185 de volta para a versão 96 (Módulo de Kernel NVIDIA Linux x86 96.43.13 Qui Jun 25 18:42:21 PDT 2009). Isso parece ter reduzido a frequência de erros.


Em termos do que está sendo executado no momento, isso pode variar. Os itens a seguir são comuns, mas não estão necessariamente sendo executados em todos os acidentes:

  • Firefox 3.5
  • VirtualBox OSE com 1 ou 2 VMs do Windows XP
  • Skype
  • Rhythmbox ou Exaile


Meu hardware tem 2 - 3 anos de idade:

  • Core 2 Duo 6300
  • 4 GB de RAM
  • alguma raça de placa-mãe Intel desse vintage
  • uma placa de vídeo de cabeça dupla da Asus com chipset Nvdia GeForce 7300 GS
  • 2 x discos rígidos SATA
  • monitores duplos (por isso confio nos drivers nvidia proprietários)


Eu tenho mantido atualizado com as atualizações do meu sistema.

Espero que os dados acima possam levar alguém a sugerir um tipo específico de registro ou configuração que valeria a pena investigar.

Atualizações
RAM parece bem
Por sugestão abaixo, você irá postar novamente no superusuário

    
por LRE 19.01.2010 / 22:52

3 respostas

2

O Linux e outros sistemas semelhantes ao Unix são mais sensíveis à RAM fragmentada do que ao Windows. Eu rodaria o memtest86 e verificaria a RAM

    
por 20.01.2010 / 02:28
2

Tais problemas podem de fato ser causados por hardware defeituoso (se você suspeitar que o driver nvidia, talvez a placa gráfica tenha um erro de hardware?)

  • se você tiver o monitoramento de temperatura ativado (com sensores-applet / lm_sensors), existem altas leituras?
  • você fez algum overclock?
  • você teve falhas / interrupções / reinicializações estranhas no Windows também?

Se o sistema trava, algumas coisas para verificar:

  • os LEDs do teclado estão piscando? AFAIK que indicaria um Kernel Panic (ou seja, o kernel travou)
  • você consegue acessar o sistema com o Ping?
  • use a combinação de chaves SysRq (deve ser ativada antes) para ver se você pode obter alguma resposta do sistema
    • consulte link para obter detalhes
    • você deve verificar se a chave está realmente ativada e funcionando pressionando Alt + SysRq + h no terminal virtual (alterne para lá com Ctrl + Alt + F1; volte com Ctrl + Alt + F7)
  • após a reinicialização, verifique os arquivos de log (/ var / log / syslog, /var/log/Xorg.0.log) para as últimas mensagens
por 28.01.2010 / 13:28
0

Talvez seja um problema de hardware? Eu tenho experiência com a placa de vídeo quebrada que pendurou o computador sem deixar rastros no log do kernel. Para isolar o problema, tente algum LiveCD que use composição, ou melhor ainda: jogue um jogo 3D ;-). Consulte: postagem relacionada no fórum da UL

    
por 15.01.2013 / 12:50