Congelamento regular no sistema baseado em Ryzen, 16.04 LTS e kernel mais novo

4

Estou executando a CPU Ryzen 1700X e fazendo cálculos. De vez em quando o sistema trava, enquanto executa 16.04 LTS (Kernel 4.10). O sistema não reinicia. Não há sinal no visor e o teclado + mouse não funcionam. Não consigo me conectar via SSH.

Salvei o kern.log e syslog durante a execução de 16.04 LTS.

Depois de ler vários posts e ler questões sobre a nova arquitetura e questões, decidi experimentar o kernel mais recente e mudei para o 4.12.8 (de 16 de agosto de 2017) do aqui . Eu usei este postar no AskUbuntu para atualizar o kernel. O sistema foi inicializado bem e meu aplicativo funcionou bem por aproximadamente 10 horas agora.

Após cerca de ~ 11 horas o sistema travou novamente, com as mesmas mensagens no syslog como visto no kernel 4.10 no 16.04 LTS, dado abaixo. {Kernel e arquivos syslog, com kernel 4.12: kern.log com novo kernel e syslog com novo kernel }

Aug 18 17:27:13 vriksha systemd[1]: Starting Cleanup of Temporary Directories...
Aug 18 17:27:13 vriksha systemd-tmpfiles[4661]: [/usr/lib/tmpfiles.d/var.conf:14] Duplicate line for path "/var/log", ignoring.
Aug 18 17:27:13 vriksha systemd[1]: Started Cleanup of Temporary Directories.
Aug 18 17:28:25 vriksha ntpd[1516]: 209.242.224.117 local addr 192.168.2.15 -> <null>
Aug 18 17:35:01 vriksha CRON[4821]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Aug 18 17:35:40 vriksha systemd[1]: Started Session 5 of user vani.
Aug 18 17:42:18 vriksha sensord: Chip: amdgpu-pci-2700
Aug 18 17:42:18 vriksha sensord: Adapter: PCI adapter
Aug 18 17:42:18 vriksha sensord:   fan1: 1423 RPM
Aug 18 17:42:18 vriksha sensord:   temp1: 43.0 C
Aug 18 17:42:18 vriksha sensord: Chip: asus-isa-0000
Aug 18 17:42:18 vriksha sensord: Adapter: ISA adapter
Aug 18 17:42:18 vriksha sensord:   cpu_fan: 0 RPM
Aug 18 17:45:01 vriksha CRON[6142]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Aug 18 17:55:01 vriksha CRON[6431]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Aug 18 18:05:01 vriksha CRON[6607]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Aug 18 18:09:52 vriksha kernel: [ 3459.913711] perf: interrupt took too long (2529 > 2500), lowering kernel.perf_event_max_sample_rate to 79000
Aug 18 18:12:18 vriksha sensord: Chip: amdgpu-pci-2700
Aug 18 18:12:18 vriksha sensord: Adapter: PCI adapter
Aug 18 18:12:18 vriksha sensord:   fan1: 1431 RPM
Aug 18 18:12:18 vriksha sensord:   temp1: 40.0 C
Aug 18 18:12:18 vriksha sensord: Chip: asus-isa-0000
Aug 18 18:12:18 vriksha sensord: Adapter: ISA adapter
Aug 18 18:12:18 vriksha sensord:   cpu_fan: 0 RPM
Aug 18 18:15:01 vriksha CRON[6785]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Aug 18 18:17:01 vriksha CRON[6825]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
Aug 18 18:25:01 vriksha CRON[6967]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)

Após a última linha na mensagem acima (em syslog ), o sistema congelou. Eu tive que reiniciar para reiniciar novamente. Isso aconteceu novamente com o novo kernel.

Detalhes do sistema:

CPU-1700X Ryzen, No SMT, BIOS version- 3401 dated 12/08/2017 (AGESA 1071)
RAM 32 GB
AMD RX 470 GPU 
Lubuntu 16.04 LTS, LXDE with Openbox

Alguém pode me ajudar.

Atualizações

O aplicativo que estou executando não está usando gcc , g++ .

  1. lspci output é aqui .

  2. dmesg | egrep 'drm|radeon' output é aqui

  3. (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1) está relacionado ao pacote sysstat que eu removi. O problema ainda existe.

  4. A saída

    glxinfo | grep -i open para GPU AMD RX 470 é fornecida abaixo

    glxinfo | grep -i open 
    OpenGL vendor string: X.Org
    OpenGL renderer string: Gallium 0.4 on AMD POLARIS10 (DRM 3.15.0 / 4.12.8-041208-generic, LLVM 4.0.0)
    OpenGL core profile version string: 4.5 (Core Profile) Mesa 17.0.7
    OpenGL core profile shading language version string: 4.50
    OpenGL core profile context flags: (none)
    OpenGL core profile profile mask: core profile
    OpenGL core profile extensions:
    OpenGL version string: 3.0 Mesa 17.0.7
    OpenGL shading language version string: 1.30
    OpenGL context flags: (none)
    OpenGL extensions:
    OpenGL ES profile version string: OpenGL ES 3.1 Mesa 17.0.7
    OpenGL ES profile shading language version string: OpenGL ES GLSL ES 3.10
    OpenGL ES profile extensions:
    
  5. Liguei apenas um monitor a este computador. As falhas ocorrem apenas ao executar tarefas intensivas da CPU por longos períodos de tempo. (Eu deixo o sistema com o monitor desligado, controlando-o, verificando-o a partir de uma conexão SSH. Após 5-6 horas, a conexão SSH fica indisponível. Depois de voltar para a máquina, o mouse e o teclado não fazem nada para trazer a tela Uma reinicialização forçada é necessária).

  6. Para verificar se isso é devido a GPU ou não, mudei para nVidia GTX 1080 para o qual instalei o driver proprietário e ainda sob a carga semelhante, o sistema congela. Voltei para a GPU da AMD e o problema persiste. Eu excluo esse comportamento devido ao tipo de construção da GPU. Para a placa nVidia, a saída glxinfo | grep -i open está seguindo;

    OpenGL vendor string: NVIDIA Corporation
    OpenGL renderer string: GeForce GTX 1080/PCIe/SSE2
    OpenGL core profile version string: 4.5.0 NVIDIA 384.81
    OpenGL core profile shading language version string: 4.50 NVIDIA
    OpenGL core profile context flags: (none)
    OpenGL core profile profile mask: core profile
    OpenGL core profile extensions:
    OpenGL version string: 4.5.0 NVIDIA 384.81
    OpenGL shading language version string: 4.50 NVIDIA
    OpenGL context flags: (none)
    OpenGL profile mask: (none)
    OpenGL extensions:
    OpenGL ES profile version string: OpenGL ES 3.2 NVIDIA 384.81
    OpenGL ES profile shading language version string: OpenGL ES GLSL ES 3.20
    OpenGL ES profile extensions:
    
    1. Atualizou o BIOS para a versão 3401 (12/08/2017, AGESA 1071) e o problema persiste.
por ankit7540 19.08.2017 / 05:57

1 resposta

1

Eu tive o mesmo problema que você. Ryzen 1800x

Eu sugiro que você:

Reabilite o SMT - Não é necessário desativá-lo.

Volte para o kernel atual normal para o Ubuntu 16.04 que é atualmente 4.4.0-93

Desative todas as opções globais de C-State de "economia de energia" no BIOS.

Desative também a opção cool n quiet.

Aumente a tensão do seu SoC para 1.1 para estabilidade, isso é recomendado. Conforme indicado neste vídeo: link

A recomendação acima é válida se você estiver estressando a CPU ou se estiver ocioso.

Faça o download dos drivers AMD mais recentes no site da AMD para sua placa. Você também pode experimentar os drivers de código aberto mais recentes por meio de: "Drivers adicionais" em "Software e atualizações". Eu recomendo esta opção primeiro.

Antes de fazer o acima, basta redefinir o BIOS para o padrão e verificar se existe uma versão mais recente disponível.

    
por User08721 13.09.2017 / 23:20