Debugging cuda nvidia driver crashiness

2

Estou executando um servidor Ubuntu sem cabeça 14.04 com GPU GeForce 690, tentando fazer coisas divertidas de aprendizado de máquina Cuda. Estou tendo problemas com o driver pendurado e esperando obter alguma ajuda para depurá-lo aqui. Esta é uma nova questão; o cartão funcionou corretamente no passado para computação.

O problema é que basicamente qualquer programa que tenta se conectar ao cartão trava. Isso acontece com programas muito simples que eu mesmo escrevi, assim como com o binário nvidia-smi fornecido pela nvidia. Eu executei cada um desses através de strace e todos eles estão pendurados em um syscall aberto, tentando abrir o dispositivo / dev / nvidiactl.

Quando os programas estiverem suspensos, eles não poderão mais receber sinais (kill -9 não tem efeito). Eu só posso pará-los reiniciando.

Eu tentei forçar o rmmod do driver nvidia, mas ele diz estar em uso. O lsof não mostra nenhum programa que realmente mantenha um descritor de arquivo para / dev / nvidiactl.

Não há exibição anexada à máquina e nenhum programa gráfico (X, gnome, unity, etc) está sendo executado.

Qual é a melhor maneira de começar a depurar algo assim em nível de sistema? É difícil porque o código do driver é proprietário ...

Deixe-me saber se seria de alguma ajuda ver mais informações sobre minha configuração. Obrigado antecipadamente!

    
por Chris Suter 15.02.2016 / 04:52

0 respostas