Ubuntu 16.04 LTS reinicia / falha ao executar GPUs

0

Estou executando o Ubuntu 16.04 LTS com CUDA 8.0, Tensorflow 1.1.0 e Keras 2.0.6. O sistema tem duas GPUs TitanX, que estou usando para treinar redes neurais convolucionais. Eu executo esses processos na tela, e um único script geralmente leva cerca de dois dias para ser concluído. No entanto, o sistema geralmente trava e reinicia durante o treinamento, e não sei por quê.

Os logs que eu observei não indicam nada sobre o motivo da reinicialização do sistema e verifiquei se nenhum dos componentes estava superaquecendo.

Alguma idéia?

    
por Hank Richards 09.04.2018 / 15:51

1 resposta

1

Consegui corrigir o problema, desconectando e reinstalando todos os cabos PSU do sistema. Presumivelmente, um deles estava solto e causando uma reinicialização da proteção anti-surto. Aparentemente, a placa-mãe exibe essa informação na tela quando isso acontece, mas eu sempre estava conectada remotamente ao servidor sempre que acontecia, então não conseguia ver a mensagem.

    
por Hank Richards 10.07.2018 / 08:20