o sistema reinicia espontaneamente uma vez por dia

1

Eu tenho um novo sistema que acaba de ser construído há poucos dias, ele tem 4 GPUs NVidia Titan X, 8x16Gb de memória Gskill DDR4-2400, em uma placa-mãe Asus X99-E WS, rodando o Ubuntu 14.04.

Estou procurando maneiras de descobrir o que causou essas reinicializações aleatórias, o sistema não estava nem fazendo nada, apenas fica ocioso ... e isso já aconteceu várias vezes! Não deve haver superaquecimento, pois a CPU é refrigerada a água, e eu tenho um sensor de lm que mostra as GPUs com temperatura por volta de 35C, e sempre que o sistema se reinicia (enquanto eu estiver ausente), ele não faz nada. então o superaquecimento não deve ser o problema aqui.

Eu fiz last reboot e encontrei várias auto-reinicializações que eu não conhecia, então fui ao /var/log/kern.log na esperança de ver algo informativo. Eu descobri que por volta de cada minuto, esta mensagem de erro está registrada:

AER: Multiple Corrected error received: id=0018
PCIe Bus Error: severity=Corrected, type=Data Link Layer, id=0018(Receiver ID)
device [8086:6f08] error status/mask=00000040/00002000
[6] Bad TLP

e, em seguida, antes da reinicialização espontânea, o seguinte é registrado:

[0.000000] Initializing cgroup subsys cpuset
[0.000000] Initializing cgroup subsys cpu
...
AER: Multiple Corrected error received: id=0018
PCIe Bus Error: severity=Corrected, type=Data Link Layer, id=0018(Receiver ID)
device [8086:6f08] error status/mask=00000040/00002000
[6] Bad TLP
[0.000000] Initializing cgroup subsys cpuset
[0.000000] Initializing cgroup subsys cpu
...
%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre% %pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre% %pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre% %pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre% %pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%
%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre% %pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre% %pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre% %pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre% %pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%%pre%

seguido pelo log de reinicialização:

%pre%

O que isso me diz? Ou estou olhando para o arquivo de log errado?

    
por Chen-Ping Yu 22.09.2016 / 18:03

3 respostas

0

acaba por ser uma má bios pela Asus!

Eu olhei em volta e parece que as pessoas que têm a placa-mãe Rupage da Asus (X99) e placas Nvidia high-end também estão tendo este problema de reinicialização espontânea, e o problema parece estar cercando uma má bios.

Esse pessoal afirma que o Bios mais novo da versão 3xxx está causando essa reinicialização aleatória, mas se eles voltarem para a versão do Bios de 2xxx, ele será estável como um rock.

Embora minha placa-mãe seja um Asus (X99-E WS), mas não um Rampage, mas meu Bios é 3101, tentei ver se conseguia encontrar uma versão bios 2xxx para minha placa-mãe. Enquanto eu não conseguia encontrar um para voltar, a Asus acabou de lançar um novo Bios (v3302) para minha placa-mãe TRÊS DIAS ATRÁS, eu tentei isso e ele funcionou bem, sem reinícios aleatórios por 2 dias. Espero que isso tenha resolvido os problemas ...!

    
por Chen-Ping Yu 26.09.2016 / 20:20
1

Isto parece ser um bug do kernel. O link sugere que você desative o AER adicionando pci=noaer à linha de comando do kernel no grub. Você poderia, por exemplo, adicioná-lo a /etc/default/grub na linha 12:

GRUB_CMDLINE_LINUX="pci=noaer"

Isso resolve esses problemas?

    
por Phillip -Zyan K Lee- Stockmann 22.09.2016 / 18:26
0

Você está tendo um problema com o ID do dispositivo PCI 8086: 6f08. No terminal, digite lspci e localize a linha contendo 8086: 6f08, e suspeito que ela aponte para uma das suas GPUs da Nvidia. Se houver quatro cartões separados, puxe todos menos um e veja se continua a mostrar erros. Continue adicionando GPUs até mostrar erros. Você pode ter uma placa ruim ou um BIOS / firmware / software da GPU que precisa ser atualizado. Verifique o site da Nvidia para isso.

edite: ou lsusb e identifique um dispositivo ou controlador USB.

Deixe-me saber como você faz. Felicidades, Al

    
por heynnema 23.09.2016 / 00:57