Como devo depurar um hard-lockup do meu laptop Ubuntu?

0

Estou usando o Ubuntu em um Thinkpad T450s há algum tempo.

De vez em quando, o sistema vai travar em mim. Por exemplo. o mouse não se move, o ctrl-alt-f # não me leva a um terminal simples, etc.

Eu ainda não experimentei a chave mágica do sysreq, e vou da próxima vez, mas não sou otimista.

Aqui está um recorte do journalctl daquele tempo (eu ativei o log persistente para que eu possa solucionar esse problema):

Jul 07 16:53:27 gothputer systemd[1]: Starting Cleanup of Temporary Directories...
Jul 07 16:53:27 gothputer systemd-tmpfiles[5215]: [/usr/lib/tmpfiles.d/var.conf:14] Duplicate line for path "/var/log", ignoring.
Jul 07 16:53:27 gothputer systemd[1]: Started Cleanup of Temporary Directories.
Jul 07 16:55:13 gothputer kernel: perf interrupt took too long (5045 > 5000), lowering kernel.perf_event_max_sample_rate to 25000
Jul 07 16:57:59 gothputer systemd-timesyncd[786]: Timed out waiting for reply from 91.189.94.4:123 (ntp.ubuntu.com).
Jul 07 16:57:59 gothputer systemd-timesyncd[786]: Synchronized to time server 91.189.89.199:123 (ntp.ubuntu.com).
Jul 07 17:12:40 gothputer kernel: thinkpad_acpi: EC reports that Thermal Table has changed
Jul 07 17:17:01 gothputer CRON[6044]: pam_unix(cron:session): session opened for user root by (uid=0)
Jul 07 17:17:01 gothputer CRON[6045]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
Jul 07 17:17:01 gothputer CRON[6044]: pam_unix(cron:session): session closed for user root
Jul 07 17:25:13 gothputer wpa_supplicant[1206]: wlp3s0: WPA: Group rekeying completed with e0:3f:49:e2:3f:c4 [GTK=CCMP]
Jul 07 17:41:35 gothputer sudo[7819]: pam_ecryptfs: pam_sm_authenticate: /home/zee is already mounted
Jul 07 17:41:35 gothputer sudo[7819]:      zee : TTY=pts/1 ; PWD=/home/zee/Downloads ; USER=root ; COMMAND=/usr/bin/gdebi N1.deb
Jul 07 17:41:35 gothputer sudo[7819]: pam_unix(sudo:session): session opened for user root by zee(uid=0)
Jul 07 17:41:43 gothputer sudo[7819]: pam_unix(sudo:session): session closed for user root
-- Reboot --
Jul 07 17:48:21 gothputer systemd-journald[313]: Runtime journal (/run/log/journal/) is 8.0M, max 118.9M, 110.9M free.
Jul 07 17:48:21 gothputer kernel: Initializing cgroup subsys cpuset
Jul 07 17:48:21 gothputer kernel: Initializing cgroup subsys cpu
Jul 07 17:48:21 gothputer kernel: Initializing cgroup subsys cpuacct
Jul 07 17:48:21 gothputer kernel: Linux version 4.4.0-28-generic (buildd@lcy01-13) (gcc version 5.3.1 20160413 (Ubuntu 5.3.1-14ubuntu2.1) ) #47-Ubuntu SMP Fri Jun 24 10:09:13 UTC 2016 (Ubuntu
Jul 07 17:48:21 gothputer kernel: Command line: BOOT_IMAGE=/boot/vmlinuz-4.4.0-28-generic.efi.signed root=UUID=3862c22d-6f33-42a1-8bde-d05dc9f1af16 ro quiet splash vt.handoff=7
Jul 07 17:48:21 gothputer kernel: KERNEL supported cpus:
Jul 07 17:48:21 gothputer kernel:   Intel GenuineIntel
Jul 07 17:48:21 gothputer kernel:   AMD AuthenticAMD
Jul 07 17:48:21 gothputer kernel:   Centaur CentaurHauls
Jul 07 17:48:21 gothputer kernel: x86/fpu: xstate_offset[2]:  576, xstate_sizes[2]:  256
Jul 07 17:48:21 gothputer kernel: x86/fpu: Supporting XSAVE feature 0x01: 'x87 floating point registers'
Jul 07 17:48:21 gothputer kernel: x86/fpu: Supporting XSAVE feature 0x02: 'SSE registers'
Jul 07 17:48:21 gothputer kernel: x86/fpu: Supporting XSAVE feature 0x04: 'AVX registers'
Jul 07 17:48:21 gothputer kernel: x86/fpu: Enabled xstate features 0x7, context size is 832 bytes, using 'standard' format.

Durante esse bloqueio específico, o relógio na minha área de trabalho congelou às 17:47:40, para referência.

Quais são os próximos passos aqui? Eu não tenho certeza de onde começar a ler cada log que eu possa encontrar, já que não está muito claro "o que" está falhando.

    
por Zee Alexander 08.07.2016 / 02:59

1 resposta

1

Coisas que você pode experimentar quando não há nada óbvio causando um bloqueio

  • Descubra qual é a temperatura máxima de operação da sua CPU do fabricante
  • Verifique na sua BIOS ou no diagnóstico da placa, se disponível, se algo de errado pode ser detectado (tensão, velocidade do ventilador, temperaturas, erros inteligentes)
  • Desligamento X (como sudo service lightdm stop ou similar) para tirar gráficos e itens fora da equação e permitir que você veja mensagens de erro do console
  • Instale o pacote lm-sensors e configure-o. Veja que tudo está bem de lá também
  • Mantenha sensores funcionando assim: watch -n1 sensors
  • Fique de olho no dmesg output, ele vai te dizer tudo sobre coisas do kernel
  • ALT-F1 (F2, F3) para alternar telas
  • Execute uma queima de CPU no aplicativo como stress ou algo para aquecer a CPU e a sensors de saída. Certifique-se de que ele use todos os núcleos em sua CPU.
  • Instale o smartmontools e execute o smartctl para consultar seu disco rígido e realizar autotestes
  • Experimente memtest86 ou outro aplicativo inicializável para verificar sua RAM. Ou se você deve tentar memtester de dentro do Linux
  • Experimente bonnie++ , dd ou algo para enfatizar seu disco rígido

Se todas essas coisas parecem funcionar bem, eu suspeito de X, especialmente o hardware ou drivers gráficos (apenas de experiências passadas). Se você usa drivers da Nvidia, eu sei que você pode ver a temperatura e a velocidade do ventilador a partir do utilitário de GUI fornecido.

    
por 08.07.2016 / 06:02