lspci retorna “Não é possível abrir / sys / bus / pci / devices / xxxxx / resource: não existe tal arquivo ou diretório”

1

Minha VM do servidor Ubuntu 16.10 no MS Azure (série NV6) de repente teve um hickup por razões desconhecidas (nada que eu fizesse), tive que reiniciá-lo e quando ele voltou on-line eu não conseguia mais usar a GPU a máquina.

O aplicativo nvidia-smi congela.

O comando lspci yields

lspci: Cannot open /sys/bus/pci/devices/7ec1:00:00.0/resource: No such file or directory

E, claro, esse caminho (não mais?) existe. O que existe é,

$: ls /sys/bus/pci/devices/
0000:00:00.0/    0000:00:07.0/    0000:00:07.1/    0000:00:07.3/    0000:00:08.0/    b717ec1:00:00.0/

Alguns pesquisaram algumas perguntas semelhantes, como a minha, muitas das quais foram feitas nas últimas 24 horas, como este .

Isso pode ser devido ao Ubuntu ou Azure, não tenho idéia de qual é a origem desse problema ou como resolvê-lo.

Alguém tem alguma ideia?

    
por larslovlie 28.04.2017 / 19:49

2 respostas

2

Eu estava tendo o mesmo problema (usando instâncias do Azure NC24) e depois de trabalhar nela por algumas horas, encontrei este post e decidi enviar uma solicitação de suporte à Microsoft. Veja o que eles me disseram:

  

A Canonical parece ter lançado recentemente o kernel 4.4.0-75 para o Ubuntu 16.04 e isso está tendo um efeito adverso nas GPUs da Tesla em VMs da série NC.   A instalação do 4.4.0-75 quebra a versão 8.0.61-1 do driver NVIDIA CUDA que atualmente é recomendado para uso nesses sistemas, resultando em nvidia-smi não mostrando os adaptadores e o lspci retornando um erro similar ao seguinte: / p>      

root@pd-nvtest2:~# lspci lspci: Cannot open /sys/bus/pci/devices/2baf:00:00.0/resource: No such file or directory

Eles sugerem o backup da unidade do sistema operacional, executando

apt-get remove linux-image-4.4.0-75-generic

e depois

update-grub

Reinicie e deve funcionar! No mínimo, fazendo isso corrigiu a saída do lspci para mim, eu ainda precisava consertar algumas coisas do CUDA, mas de tentativas anteriores de depuração.

    
por Chris Gorman 02.05.2017 / 08:28
0

Talvez isso tenha ocorrido porque você parou (desalocou) a VM do Azure e, em seguida, iniciou a VM novamente. De acordo com [1], o IP do hardware (como gpu, cpu) mudou quando você parou (desalocado) e, em seguida, iniciou a VM novamente. Mas o sistema Ubuntu não foi atualizado para novo endereço IP de hardware (como gpu, cpu). Portanto, o lspci dirá que você não pode abrir alguma pasta relacionada ao endereço IP do hardware.

[1] link

    
por Evan 30.04.2017 / 02:27