Estou executando um novo sistema no Arch Linux há cerca de 3 semanas e, na noite passada, reiniciei espontaneamente.
Não há shutdown / halt no journalctl no momento da reinicialização, então tenho certeza que isso é relacionado a hardware, não um programa de espaço de usuário ou acpi.
journalctl
Jul 01 06:21:15 euclid sshd[25731]: ...
-- Reboot --
Jul 01 06:24:46 euclid systemd-journald[305]: Time spent on flushing to /var is 547us for 0 entries.
Então, durante a inicialização,
Jul 01 06:24:46 euclid kernel: .... node #0, CPUs: #1 #2 #3
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: Machine check events logged
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: CPU 3: Machine Check: 0 Bank 5: bea0000000000108
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: TSC 0 ADDR 1ffff810b4260 MISC d012000101000000 SYND 4d000000 IPID 500b000000000
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: PROCESSOR 2:800f11 TIME 1498915479 SOCKET 0 APIC 3 microcode 800111c
Jul 01 06:24:46 euclid kernel: #4 #5 #6 #7 #8 #9 #10 #11 #12 #13 #14 #15
Quando tento executar o mcelog, obtenho
0 % mcelog
mcelog: ERROR: AMD Processor family 23: mcelog does not support this processor. Please use the edac_mce_amd module instead.
CPU is unsupported
Suspeito que: 1) subdimensionei o PSU para esse sistema, ou 2) superaqueci em algum lugar.
Todas as calculadoras de PSU que eu executei me deram uma recomendação de 750W, então eu fui com uma PSU de 850W. Ainda assim, agora estou pensando em atualizar para uma PSU de 1000W.
Minhas perguntas são: como interpretar esse evento de verificação da máquina? Eu acho que é específico para o meu CPU? A AMD coloca alguma informação que me permita decodificar esse erro? E como saberia se reinicializei devido ao superaquecimento? Não consigo encontrar nenhum log de eventos no BIOS (ASUS).
EDIT: mais detalhes
Processador: Ryzen 7 1700
Mobo: Asus Prime x370-Pro
RAM: G.SKILL Trident Z (4x 8 GB) 3200 (F4-3200C16D-16GTZKW)
PSU: EVGA SuperNOVA 850 P2 80+ PLATINA 850W
GPU: GTX 1080-TI x2
Identificador 0 x 0000, tipo DMI 0, 24 bytes
Informações sobre BIOS
Fornecedor: American Megatrends Inc.
Versão: 0604
Data de lançamento: 04/06/2017
Sem overclock. Configurações do BIOS de estoque.
Funcionou de forma estável por várias semanas. Eu adicionei 3x HDD alguns dias antes do evento.
EDIT: O mesmo acidente parece ter acontecido novamente
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: Machine check events logged
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: CPU 12: Machine Check: 0 Bank 5: bea0000000000108
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: TSC 0 ADDR 1ffff810b3ef6 MISC d012000101000000 SYND 4d000000 IPID 500b000000000
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: PROCESSOR 2:800f11 TIME 1499406389 SOCKET 0 APIC c microcode 800111c