Acabei de instalar com cuidado a unidade nvidia mais recente em uma nova instância do amazon g2.2xlarge ec2 que gostaria de usar para aprender algumas máquinas.
Antes de instalar o cuda e outros pacotes, gostaria de verificar se o driver foi instalado corretamente.
Meu entendimento é que nvidia-smi é a ferramenta para esse trabalho.
O comando nvidia-smi parece retornar a saída quando não uso nenhuma opção.
ubuntu@ip-10-220-191-26:~$ nvidia-smi
Tue Apr 5 05:51:06 2016
+------------------------------------------------------+
| NVIDIA-SMI 352.39 Driver Version: 352.39 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
Killed
No entanto, se eu pedir para exibir as GPUs ou até mesmo a página de ajuda, ela simplesmente trava.
ubuntu@ip-10-220-191-26:~$ nvidia-smi -L
Eu não posso nem matá-lo com o SIGKILL. Eu tenho que reiniciar a máquina.
ubuntu@ip-10-220-191-26:~$ ps aux | grep smi
ubuntu 3919 0.0 0.0 14120 932 pts/0 D+ 05:37 0:00 nvidia-smi -h
ubuntu 3991 0.0 0.0 14120 928 pts/1 D+ 05:38 0:00 nvidia-smi -L
ubuntu 4064 0.0 0.0 10460 928 pts/2 S+ 05:42 0:00 grep --color=auto smi
ubuntu@ip-10-220-191-26:~$ kill 3919
ubuntu@ip-10-220-191-26:~$ kill 3991
ubuntu@ip-10-220-191-26:~$ ps aux | grep smi
ubuntu 3919 0.0 0.0 14120 932 pts/0 D+ 05:37 0:00 nvidia-smi -h
ubuntu 3991 0.0 0.0 14120 928 pts/1 D+ 05:38 0:00 nvidia-smi -L
ubuntu 4066 0.0 0.0 10460 932 pts/2 S+ 05:43 0:00 grep --color=auto smi
Não tenho certeza sobre como depurar esse problema.
Gostaria apenas de verificar se a unidade está instalada corretamente e se comunicando com as GPUs.
Tags nvidia amazon-ec2 gpu