Estou executando um servidor Ubuntu sem cabeça 14.04 com GPU GeForce 690, tentando fazer coisas divertidas de aprendizado de máquina Cuda. Estou tendo problemas com o driver pendurado e esperando obter alguma ajuda para depurá-lo aqui. Esta é uma nova questão; o cartão funcionou corretamente no passado para computação.
O problema é que basicamente qualquer programa que tenta se conectar ao cartão trava. Isso acontece com programas muito simples que eu mesmo escrevi, assim como com o binário nvidia-smi fornecido pela nvidia. Eu executei cada um desses através de strace e todos eles estão pendurados em um syscall aberto, tentando abrir o dispositivo / dev / nvidiactl.
Quando os programas estiverem suspensos, eles não poderão mais receber sinais (kill -9 não tem efeito). Eu só posso pará-los reiniciando.
Eu tentei forçar o rmmod do driver nvidia, mas ele diz estar em uso. O lsof não mostra nenhum programa que realmente mantenha um descritor de arquivo para / dev / nvidiactl.
Não há exibição anexada à máquina e nenhum programa gráfico (X, gnome, unity, etc) está sendo executado.
Qual é a melhor maneira de começar a depurar algo assim em nível de sistema? É difícil porque o código do driver é proprietário ...
Deixe-me saber se seria de alguma ajuda ver mais informações sobre minha configuração. Obrigado antecipadamente!