reinicialização espontânea, eventos de verificação de máquina, AMD ryzen [closed]

4

Estou executando um novo sistema no Arch Linux há cerca de 3 semanas e, na noite passada, reiniciei espontaneamente.

Não há shutdown / halt no journalctl no momento da reinicialização, então tenho certeza que isso é relacionado a hardware, não um programa de espaço de usuário ou acpi.

journalctl
Jul 01 06:21:15 euclid sshd[25731]: ...
-- Reboot --
Jul 01 06:24:46 euclid systemd-journald[305]: Time spent on flushing to /var is 547us for 0 entries.

Então, durante a inicialização,

Jul 01 06:24:46 euclid kernel: .... node  #0, CPUs:        #1  #2  #3
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: Machine check events logged
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: CPU 3: Machine Check: 0 Bank 5: bea0000000000108
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: TSC 0 ADDR 1ffff810b4260 MISC d012000101000000 SYND 4d000000 IPID 500b000000000 
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: PROCESSOR 2:800f11 TIME 1498915479 SOCKET 0 APIC 3 microcode 800111c
Jul 01 06:24:46 euclid kernel:   #4  #5  #6  #7  #8  #9 #10 #11 #12 #13 #14 #15

Quando tento executar o mcelog, obtenho

0 % mcelog
mcelog: ERROR: AMD Processor family 23: mcelog does not support this processor.  Please use the edac_mce_amd module instead.
CPU is unsupported

Suspeito que: 1) subdimensionei o PSU para esse sistema, ou 2) superaqueci em algum lugar.

Todas as calculadoras de PSU que eu executei me deram uma recomendação de 750W, então eu fui com uma PSU de 850W. Ainda assim, agora estou pensando em atualizar para uma PSU de 1000W.

Minhas perguntas são: como interpretar esse evento de verificação da máquina? Eu acho que é específico para o meu CPU? A AMD coloca alguma informação que me permita decodificar esse erro? E como saberia se reinicializei devido ao superaquecimento? Não consigo encontrar nenhum log de eventos no BIOS (ASUS).

EDIT: mais detalhes

Processador: Ryzen 7 1700

Mobo: Asus Prime x370-Pro

RAM: G.SKILL Trident Z (4x 8 GB) 3200 (F4-3200C16D-16GTZKW)

PSU: EVGA SuperNOVA 850 P2 80+ PLATINA 850W

GPU: GTX 1080-TI x2

Identificador 0 x 0000, tipo DMI 0, 24 bytes
Informações sobre BIOS
        Fornecedor: American Megatrends Inc.
        Versão: 0604
        Data de lançamento: 04/06/2017

Sem overclock. Configurações do BIOS de estoque.

Funcionou de forma estável por várias semanas. Eu adicionei 3x HDD alguns dias antes do evento.

EDIT: O mesmo acidente parece ter acontecido novamente

Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: Machine check events logged
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: CPU 12: Machine Check: 0 Bank 5: bea0000000000108
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: TSC 0 ADDR 1ffff810b3ef6 MISC d012000101000000 SYND 4d000000 IPID 500b000000000 
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: PROCESSOR 2:800f11 TIME 1499406389 SOCKET 0 APIC c microcode 800111c
    
por Todd Freed 01.07.2017 / 17:58

1 resposta

2

Parece que este é um problema de hardware da CPU. Nos fóruns da comunidade da AMD ( link ), foi sugerido desabilitar o SMT ou o OpCache como solução alternativa até que isso seja resolvido.

Eu desativei o OpCache na BIOS e as mensagens: [Erro de hardware] durante a inicialização desapareceram. Eu tenho dois sistemas idênticos, que tiveram o mesmo problema com os congelamentos / reinicializações. Até agora, os dois sistemas não congelaram.

    
por 11.07.2017 / 20:53