Inspeção de causa raiz do desligamento do computador sob carga de gpu

0

Estou tentando usar meu Nvidia gpu para fins científicos. No entanto, depois de um tempo eu comecei um processo para este GPU, meu computador shutdowns. Ele não pode ser aberto a partir do botão de maiúsculas, a menos que o botão liga / desliga da PSU seja desligado e permaneça nesse estado por pelo menos 30 segundos e depois ligado. Estou tentando identificar o motivo dessa situação.

A visão geral do meu sistema é:

  • Linux (fedora)
  • Placa-mãe: Gigabyte GA-970A-UD3
  • Nvidia Gtx 1070 (para tarefas de gpu)
  • Radeon HD 7850 (para fins padrão)
  • PSU de 700 W

Aqui está uma lista de coisas que tentei até agora:

  • fiz um teste de carga da CPU e não encerrei
  • Eu removi o GPU da AMD, ele ainda é desligado
  • Ele não será desligado se eu der um leve cálculo para a GPU da Nvidia por um curto período de tempo
  • Se eu der um cálculo pesado, ele é encerrado logo após o início
  • eu verifiquei temp Nvidia gpu e até mesmo flutua no máximo. em torno de 55 C, ele desliga
  • Defino manualmente a velocidade do ventilador da GPU da Nvidia para% 80. Pareceu ajudar porque a tarefa dada foi executada um pouco mais do que o normal, mas não impediu o desligamento
  • Eu removi HDD extra ou fãs para deixar a PSU menos cansada, não ajudou em nada
  • Adicionei PSU extra usando add2psu , mas ainda encerra
  • Até a temperatura da CPU está em torno de 45, ela é desligada se a GPU da Nvidia começar a fazer cálculos
  • Eu mudei completamente o meu software de cálculo, no entanto, ele encerra
  • eu atualizei driver Nvidia e isso não ajudou
  • Eu tentei cálculos aleatórios para isolar o processo de leitura do disco rígido, mas ele ainda encerra
  • Eu reinstalei o sistema operacional, mas o problema persiste
  • eu verifiquei a placa-mãe, mas não há marcas de queimadura

Quais são as suas sugestões? Qual pode ser a causa raiz disso?

Obrigado.

    
por Sefa 06.06.2018 / 23:51

2 respostas

-1

Eu inspecionei as freqüências do clock durante a execução da tarefa no GPU da Nvidia e descobri que ele excede o máximo especificado . Assim, em alguns estados mais baixos, como o P8, ele não é desligado, mas essa frequência com overclock impede que ele funcione em estados mais altos.

Não posso limitar a freqüência do clock da GPU da Nvidia. No entanto, consegui fazê-lo ao limitar o consumo de energia, mas com o custo de 20% de velocidade de execução relativa mais lenta.

Comando:

nvidia-smi --persistence-mode=1
nvidia-smi --power-limit=$POWER_LIMIT
    
por 20.06.2018 / 06:23
0

Quais são os seus tempos de CPU? Uso indevido de compostos térmicos ex: cooler não suficiente ou desalinhado poderia causar o mesmo problema devido ao superaquecimento e uma última coisa a verificar seria sua fonte de alimentação, recentemente tive um que estava falhando sob carga (jogos) e iria reiniciar meu sistema mas quando eu não estava jogando seria por horas. Mais fácil e mais fácil de verificar primeiro seria o PSU, se ainda não há alívio, em seguida, olhe para refazer o composto térmico na CPU e verifique se o cooler do seu processador está devidamente encaixado.

    
por 07.06.2018 / 23:45

Tags