Como descobrir o que causou lag / freeze e auto-reboot?

3
  • Xubuntu 14.04

  • FF 39,0, embalado pela Canonical

Acabei de experimentar minha máquina praticamente congelar e não reagir nenhuma entrada. O ponteiro do mouse moveu-se como 2 mm a cada 20 segundos e minha carga de CPU na barra de tarefas principal tinha uma barra cheia de quatro (acho que estou falando sobre o "carregamento de CPU" do XFCE aqui). Isso aconteceu enquanto eu estava lendo a guia sobre a segurança & partes de criptografia do iPhone nesta página oficial da Apple (apenas dizendo o que eu fiz, nada mais).

Eu tentei fazer o login via TTY1, mas ele não pegou nenhuma informação de login que eu digitei. Na verdade, eu peguei o que eu digitei em primeiro lugar (digamos john como usuário) então eu pressionei Enter depois disso, mas nada aconteceu . Digitar a senha para o usuário mostrava no TTY1, como mostrava qualquer outra entrada. Ele também mostrou que CTRL^C parte se eu acertar a combinação para abortar um processo.

A mudança para o DE / TTY7 aconteceu uma eternidade depois que eu acessei CTRL + ALT + F7 . A página da Apple ainda estava visível.

Então eu apenas assisti a máquina fazendo algo por quase 2 minutos, então eu a vi reiniciar. IIRC a mensagem para o desligamento tinha as palavras "start" "stop" e "state" e "wait" nele.

Acho que o que estou perguntando é: exatamente o que preciso procurar em /var/log/syslog ? E preciso procurar outra coisa?

  • syslog para o ponto de tempo relevante

  • Explicações: Eu estava desconectando e reconectando o cabo ethernet, o teclado e o mouse. Foi uma tentativa (coxo) de tentar fazer com que o Xubuntu os reconheça novamente, para usá-los.

por henry 28.07.2015 / 13:49

1 resposta

1

Aviso de isenção de responsabilidade: minhas ideias sobre quais mensagens você pode ver parecem não corresponder ao seu relatório, então, provavelmente, estou sentindo falta de algo.

Basicamente eu não conseguia pensar em muitas razões para falhas de reinicialização de software, e você definitivamente deveria querer considerar o hardware. Hipoteticamente, se você extraísse algum tipo de crash dump, seria muito frustrante interpretar se o problema é realmente hardware. Um teste de RAM seria uma ótima ideia neste momento (Inicialize em memtest86 ou equivalente). Um teste de estresse da CPU também seria bom para verificar o superaquecimento. Pelo que você diz, você provavelmente só quer alguns minutos rodando 4% dos comandoscpuburn.

A maior coisa que você deve excluir, dada a sua descrição, é que você ficaria sem memória e o sistema estaria se transformando em morte. Isso não deve causar uma reinicialização. A luz do disco estaria acesa. E o uso de 100% da CPU normalmente não seria esperado, mas alguns monitores podem mostrar uma CPU em 100% do estado de "Espera de E / S"; esta deve ser a sua própria cor.

Eu não esperaria que você visse uma mensagem dizendo < erro, reiniciando agora & gt ;. Você pode apenas ver algumas mensagens de uma primeira ou segunda falha antes de uma falha tripla e a tela fica preta. Essas mensagens não seriam gravadas no syslog - você precisaria configurar um console do kernel externo. (Porta serial, ou talvez netconsole). Ou experimente estas instruções breves para registar a exploração do firmware da EFI, se o tiver . Esta pode ser uma opção mais prática. Não tenho certeza se ele será ativado se você não tiver montado o sistema de arquivos pstore. Se você estiver interessado em depurar os kernels, isso parece legal.

Algumas configurações podem iniciar uma reinicialização do software. Por exemplo. panic= opção de inicialização do kernel e / ou um temporizador de watchdog. O systemd tem um recurso de watchdog, provavelmente com um tempo limite na ordem de minutos.

Acredito que seus padrões do sistema operacional não ativarão nada disso. (Não panic= e nenhum systemd para começar). Se você não tiver ativado, há apenas algumas falhas de software que esperamos causar reinicializações.

Se o kernel disparar uma falha no processo de tratamento de uma falha dentro do kernel (em x86), a máquina poderá reinicializar imediatamente. A.k.a. "falha tripla". Mas outros erros fatais do kernel irão "entrar em pânico", imprimir uma mensagem e não reinicializar por padrão.

Caso contrário, estamos pensando em um erro completamente maluco que aconteceu ao chamar o código de reinicialização. Provavelmente isso não iria repetir, a menos que você esteja recebendo muitos erros selvagens com efeitos estranhos de qualquer maneira.

Talvez estejamos vendo a corrupção de memória (causada durante o período ocupado), causando uma falha tripla. Mensagens do kernel durante o período ocupado podem esclarecer isso.

    
por 28.07.2015 / 15:26