Misterioso congelamento do sistema por vários minutos

4

Atualmente estou passando por períodos muito longos (~ 5 minutos por vez) durante os quais meu laptop congela. Tomei uma imagem da situação para apontar alguns sintomas (não consegui fazer uma captura de tela devido ao congelamento).

Aqui está a imagem:

Então, o que congela:

  • VM congela (lado direito), estava em processo de desligamento
  • Os sites não serão carregados (em segundo plano)
  • Não é possível efetuar ping de sites (janela de terminal) e, depois de um tempo, não é possível inserir texto na janela do terminal (observe o cursor de texto 'retângulo aberto')
  • O navegador de arquivos congela e não mostra o conteúdo da pasta (janela do Dolphin)
  • Não é possível abrir o Dash home

O que não congela:

  • Ainda é possível mover o mouse
  • Ainda é possível focar na janela
  • Ainda é possível inserir o terminal com alt - ctrl - f1

Informações adicionais:

  • Parece haver dois estágios, um durante o qual eu ainda posso abrir novos programas, por exemplo, e um durante o qual nem isso é mais possível. Eu suspeito que o segundo estágio começa quando tento visualizar o conteúdo da pasta home ( ~ ), mas posso estar completamente errado com isso.

  • Após cerca de 5 minutos, o sistema descongela como se nada tivesse acontecido.

  • Acontece algumas vezes por dia. Uma reinicialização não faz isso desaparecer.

  • Em pelo menos um caso (vou tentar mais, pois isso continua ocorrendo), a mudança para uma rede wifi diferente resolve instantaneamente o problema. Mudar de volta para a rede original não faz com que o problema reapareça (imediatamente).

Não sei onde começar a procurar, mas a leitura sugere que a saída dmesg pode ser um bom lugar. Seu conteúdo pode ser encontrado aqui . A (parte relevante do) conteúdo de /var/log/syslog pode ser encontrada aqui . Em ambos, há menção a uma falha de firmware em [3125.851869], que é 9 de janeiro 19:24:03.

Estou executando 16.10 em um novo Dell XPS 13 Kaby Lake. Deixe-me saber se há mais alguma informação que eu possa fornecer.

Editar

O dmesg log agora menciona um erro de hardware:

[   38.276956] Key type id_legacy registered
[  300.462458] mce: [Hardware Error]: Machine check events logged
[  311.013944] SUPR0GipMap: fGetGipCpu=0x3
[  311.521449] vboxdrv: ffffffffc0000020 VMMR0.r0
[  311.706008] vboxdrv: ffffffffc0102020 VBoxDDR0.r0
[  311.799288] vboxdrv: ffffffffc0122020 VBoxEhciR0.r0
[  327.508305] wlp58s0: AP 88:03:55:f4:9c:e8 changed bandwidth, new config is 2462 MHz, width 1 (2462/0 MHz)
[  404.851340] vboxdrv: ffffffffc0000020 VMMR0.r0
[  404.984658] vboxdrv: ffffffffc0102020 VBoxDDR0.r0
[  746.410756] hrtimer: interrupt took 9058 ns

O conteúdo de /var/log/mcelog é encontrado em this pastebin .

Editar

Há algumas sugestões de que o problema pode estar relacionado ao disco rígido, portanto, deixe-me fornecer algumas informações sobre isso.

O sistema está sendo executado em um ssd criptografado (não apenas na pasta inicial), o que provavelmente é o motivo pelo qual ele não está sendo exibido em /dev/sda , mas sim /dev/mapper/ubuntu--vg-root . Se for de alguma ajuda, toda a saída de df -l é:

Filesystem                  1K-blocks      Used Available Use% Mounted on
udev                          4003752         0   4003752   0% /dev
tmpfs                          805328     10204    795124   2% /run
/dev/mapper/ubuntu--vg-root 235927440 214041380   9831944  96% /
tmpfs                         4026636       292   4026344   1% /dev/shm
tmpfs                            5120         4      5116   1% /run/lock
tmpfs                         4026636         0   4026636   0% /sys/fs/cgroup
/dev/loop2                      77952     77952         0 100% /snap/ubuntu-core/1357
/dev/loop0                      76800     76800         0 100% /snap/ubuntu-core/423
/dev/loop1                     131968    131968         0 100% /snap/arduino-mhall119/3
/dev/nvme0n1p2                 483946    136447    322514  30% /boot
/dev/nvme0n1p1                 523248      3676    519572   1% /boot/efi
tmpfs                          805324       140    805184   1% /run/user/1000

Tentando encontrar algumas informações de integridade, executando gsmartcontrol , a Verificação Básica de Integridade é "desconhecida" e, visualizando a saída, as últimas linhas leram Read NVMe SMART/Health Information failed: NVMe Status 0x4002

Eu recebo a mesma saída ao executar sudo smartctl -a /dev/nvme0n1 :

smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.8.0-34-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number:                       THNSN5256GPUK NVMe TOSHIBA 256GB
Serial Number:                      X64S14LCT18T
Firmware Version:                   5KDA4101
PCI Vendor/Subsystem ID:            0x1179
IEEE OUI Identifier:                0x00080d
Controller ID:                      0
Number of Namespaces:               1
Namespace 1 Size/Capacity:          256,060,514,304 [256 GB]
Namespace 1 Formatted LBA Size:     512
Local Time is:                      Fri Jan 13 19:05:21 2017 CET
Firmware Updates (0x02):            1 Slot
Optional Admin Commands (0x0017):   Security Format Frmw_DL *Other*
Optional NVM Commands (0x001e):     Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat
Warning  Comp. Temp. Threshold:     78 Celsius
Critical Comp. Temp. Threshold:     82 Celsius

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     6.00W       -        -    0  0  0  0        0       0
 1 +     2.40W       -        -    1  1  1  1        0       0
 2 +     1.90W       -        -    2  2  2  2        0       0
 3 -   0.0120W       -        -    3  3  3  3     5000   25000
 4 -   0.0060W       -        -    4  4  4  4   100000   70000

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         2
 1 -    4096       0         1

=== START OF SMART DATA SECTION ===
Read NVMe SMART/Health Information failed: NVMe Status 0x4002

Não encontro informações sobre esse status.

    
por ElRudi 09.01.2017 / 19:54

0 respostas