Eu estava tendo o mesmo problema (usando instâncias do Azure NC24) e depois de trabalhar nela por algumas horas, encontrei este post e decidi enviar uma solicitação de suporte à Microsoft. Veja o que eles me disseram:
A Canonical parece ter lançado recentemente o kernel 4.4.0-75 para o Ubuntu 16.04 e isso está tendo um efeito adverso nas GPUs da Tesla em VMs da série NC. A instalação do 4.4.0-75 quebra a versão 8.0.61-1 do driver NVIDIA CUDA que atualmente é recomendado para uso nesses sistemas, resultando em nvidia-smi não mostrando os adaptadores e o lspci retornando um erro similar ao seguinte: / p>
root@pd-nvtest2:~# lspci lspci: Cannot open /sys/bus/pci/devices/2baf:00:00.0/resource: No such file or directory
Eles sugerem o backup da unidade do sistema operacional, executando
apt-get remove linux-image-4.4.0-75-generic
e depois
update-grub
Reinicie e deve funcionar! No mínimo, fazendo isso corrigiu a saída do lspci para mim, eu ainda precisava consertar algumas coisas do CUDA, mas de tentativas anteriores de depuração.