Ubuntu 16.10 problema de superaquecimento

4

Eu instalei recentemente o Ubuntu 16.10 e, desde então, o Ubuntu se reinicializa. a saída de: last | grep "Oct 31" é:

aegefel  tty7         :0               Mon Oct 31 15:15    gone - no logout
reboot   system boot  4.8.0-26-generic Mon Oct 31 15:14   still running
aegefel  tty7         :0               Mon Oct 31 15:02 - down   (00:04)
reboot   system boot  4.8.0-26-generic Mon Oct 31 15:02 - 15:06  (00:04)
aegefel  tty7         :0               Mon Oct 31 14:33 - crash  (00:28)
reboot   system boot  4.8.0-26-generic Mon Oct 31 14:33 - 15:06  (00:33)
aegefel  tty7         :0               Mon Oct 31 14:12 - crash  (00:20)
reboot   system boot  4.8.0-26-generic Mon Oct 31 14:12 - 15:06  (00:54)
aegefel  tty7         :0               Mon Oct 31 13:08 - crash  (01:04)
reboot   system boot  4.8.0-26-generic Mon Oct 31 13:08 - 15:06  (01:58)

O que me leva a acreditar que isso é causado por um acidente

Eu não sei o que causa isso, mas aconteceu quando eu tentei ver um filme ou quando eu fiz um backup

Como devo proceder?

EDIT 1

O comando more /var/log/syslog* me dá:

Nov  6 18:18:17 aegefel-Akoya-E6424-MD99850 gnome-terminal-[2674]: Allocating size to GtkBox 0x55558d2b47b0 without calling gtk_widget_get_preferred_width/height(). How does the code know the size to allocate?
Nov  6 18:18:17 aegefel-Akoya-E6424-MD99850 gnome-terminal-[2674]: Allocating size to GtkBox 0x55558d2b47b0 without calling gtk_widget_get_preferred_width/height(). How does the code know the size to allocate?
Nov  6 18:18:31 aegefel-Akoya-E6424-MD99850 gnome-terminal-[2674]: Allocating size to GtkBox 0x55558d2b4120 without calling gtk_widget_get_preferred_width/height(). How does the code know the size to allocate?
Nov  6 18:18:31 aegefel-Akoya-E6424-MD99850 gnome-terminal-[2674]: Allocating size to GtkBox 0x55558d2b4120 without calling gtk_widget_get_preferred_width/height(). How does the code know the size to allocate?
Nov  6 18:18:36 aegefel-Akoya-E6424-MD99850 systemd[1]: Starting Stop ureadahead data collection...
Nov  6 18:18:36 aegefel-Akoya-E6424-MD99850 systemd[1]: Started Stop ureadahead data collection.

Então nada aconteceu durante quase 1 minuto, então eu suponho que o PC foi reinicializado.

O comando ls -alt /var/crash me dá para hoje:

total 21672
drwxrwsrwt  2 root     whoopsie     4096 Nov  6 14:26 .
-rwxrwxrwx  1 root     whoopsie        0 Nov  6 14:26 .lock

EDIT 2

Isso só é adicionado quando meu processador é usado em 40% - 50% ou mais (meu processador é um Intel Core i5 6267U 2.9GHz)

EDIT 3

O comando sensors me dá o seguinte:

coretemp-isa-0000
Adapter: ISA adapter
Physical id 0:  +37.0°C  (high = +100.0°C, crit = +100.0°C)
Core 0:         +34.0°C  (high = +100.0°C, crit = +100.0°C)
Core 1:         +36.0°C  (high = +100.0°C, crit = +100.0°C)

acpitz-virtual-0
Adapter: Virtual device
temp1:        +38.0°C  (crit = +98.0°C)

pch_skylake-virtual-0
Adapter: Virtual device
temp1:        +35.0°C  

A alta temperatura é igual à crítica. Talvez meu laptop apenas superaqueça e o ventilador não tenha tempo para baixar a temperatura. Tentei abaixar a alta temperatura, mas isso automaticamente abaixou o crítico (o crítico deve ser igual ao alto)

EDIT 4

Aqui você tem

E aqui são as falhas de 20 de novembro

EDITAR 5

Depois de algum teste, acho que o problema é um superaquecimento da GPU. Na verdade, meu laptop é reiniciado apenas quando eu tento assistir a um filme, quando eu testei com alguns jogos grátis no meu laptop ou quando eu usei o Unreal Engine 4. O motivo do meu PC não ter reiniciado com o Blender é que o Blender usa Por padrão, a CPU (não a GPU). Eu tenho um Intel Iris Graphics 550 (Skylake GT3e) Alguma idéia?

    
por Aegefel 31.10.2016 / 15:56

2 respostas

3

Se você estiver realmente preocupado com a reinicialização devido a pânico do kernel, como sugere o título da postagem, verifique o arquivo /etc/sysctl.conf para uma diretiva semelhante a kernel.panic = n , em que n é algum número que indica quantos segundos para atrasar antes de reinicializar no mesmo de um kernel panic. Pesquisas indicam que não é necessário reiniciar por padrão.

Se, em vez disso, suspeitar que você está mais preocupado em determinar a causa raiz dessas reinicializações (alguma falha relacionada ao hardware é minha opinião), convém revisar os eventos de verificação da Máquina para determinar qual hardware está com defeito. Se você não tiver o arquivo /var/log/mcelog , talvez seja necessário instalar o o pacote mcelog ativando o repositório Universe (se ainda não estiver ativado em suas fontes) e emitindo o comando sudo apt install mcelog Em seguida, o avanço desses eventos será registrado em /var/log/mcelog

Para maior clareza, veja um trecho da man mcelog

X86  CPUs  report  errors  detected  by the CPU as machine check events
       (MCEs).  These can be data corruption detected in the  CPU  caches,  in
       main memory by an integrated memory controller, data transfer errors on
       the front side bus or CPU interconnect or other internal errors.   Pos‐
       sible  causes can be cosmic radiation, instable power supplies, cooling
       problems, broken hardware, or bad luck.

       Most errors can be corrected by the CPU by  internal  error  correction
       mechanisms. Uncorrected errors cause machine check exceptions which may
       panic the machine.

Mais informações sobre o formato de arquivo mcelog podem ser encontradas aqui

Os sistemas Linux normalmente não são reinicializados devido ao pânico do kernel por padrão, portanto, você pode usar widh para verificar o arquivo /etc/sysctl.conf mencionado anteriormente.

Fontes:

link

link

"mce: [Hardware Erro]: os eventos de verificação da máquina registrados "aparecem no syslog. O que devo fazer?

link

Com base no seu mcelog, as CPUs 1 e 3 do seu sistema estão superaquecendo. Acelerando, esfriando e acelerando o backup (tudo isso é próprio do projeto para proteger o processador contra superaquecimento). A causa raiz pode ser um composto térmico mal aplicado entre a CPU e o dissipador de calor, um dissipador de calor solto, aberturas bloqueadas ou equipamento de resfriamento excessivamente empoeirado ou com falha (ventilador?). Outra (improvável) possibilidade é uma falha nas capacidades de detecção térmica da CPU.

    
por Elder Geek 28.11.2016 / 00:36
1

O título deste tópico não está claro.

De qualquer forma, se você precisar de ajuda para investigar a falha do sistema e todos os comentários anteriores não forem úteis, tente o seguinte:

  1. Aumentar a verbosidade do registro do kernel.
  2. Pare o kernel para reiniciar automaticamente com um travamento / pânico.
  3. Tente fazer login remotamente (por exemplo, ssh) no seu sistema e verifique os registros.
  4. como declarado @ user.dz, use, e. memtest86 + do link para profundamente verificar sua RAM.
  5. Porque você disse " ... Isso só é acrescentado quando meu processador é usado em 40% - 50% ou mais ... ", poderia ser um problema de PSU? Quero dizer, seu sistema requer mais poder do que a PSU pode dar a ele.
por mattia.b89 27.11.2016 / 10:16