Aceleração da NVIDIA Mysteriously Stopped Working; Como resolver problemas e voltar a trabalhar?

0

A última vez que tentei usar nvidia-smi funcionou bem na minha máquina Ubuntu 16.04 com um Pascal Titan X.

Após cerca de um mês sem usar a máquina, inicializei e a aceleração não funciona mais. Eu tentei executar nvidia-smi e recebo este erro:

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

Eu tentei reinstalar a versão mais recente do driver com:

sudo ./NVIDIA-Linux-x86_64-390.42.run -no-drm

Rebooted e nvidia-smi informa o mesmo erro. A execução de lsmod | grep nvidia não mostra nada.

Eu tentei instalar o driver desta maneira:

sudo apt-get purge nvidia*
sudo add-apt-repository ppa:graphics-drivers
sudo apt-get update
sudo apt-get install nvidia-384

Em seguida, reiniciado - ainda nada para lsmod | grep nvidia e o mesmo erro para nvidia-smi .

No meu /var/log/syslog , vejo esta mensagem:

nvidia: version magic '4.4.0-116-generic SMP mod_unload modversions ' should be '4.4.0-116-generic SMP mod_unload modversions retpoline '

Como posso solucionar problemas e acelerar a aceleração?

    
por Jeshua Lacock 13.03.2018 / 02:20

2 respostas

0

Verifique se o seu módulo do kernel nvidia suporta retpoline, já que todos os novos kernels são construídos com isso para mitigar o Spectre. Você pode estar executando o driver nouveau agora e talvez seja necessário reconstruir o módulo do kernel nvidia com um compilador gcc corrigido. Consulte: link

    
por Ross Campbell 14.03.2018 / 22:11
0

Eu notei que você baixou os 390 drivers da nvidia, mas tentou reinstalar o 384.

O procedimento de instalação da nvidia é estranho, tenho que reler as instruções de instalação a cada poucos meses, mas se você segui-las ao pé da letra, elas devem funcionar. Pelo menos a parte CUDA faz, eu não tenho experiência com os drivers de exibição.

Depois de instalar os 390 drivers, execute sudo nvidia-modprobe e veja quais são as mensagens de erro, se houver.

Eu acho que o motivo da falha original é que o kernel foi atualizado (automaticamente ou não, não importa), e os drivers nvidia precisam ser reconstruídos. Pelo menos esse é o meu modo de falha habitual com os drivers CUDA.

    
por JayEye 14.03.2018 / 18:17