Ultimamente, tenho tido problemas com as minhas GPUs. Acabei de fazer uma limpeza da minha máquina e instalei o Ubuntu 16.04 e o CUDA 8.0 nele, esperando que isso resolvesse o problema. No entanto, ainda recebo erros. Tentar executar coisas como o deviceQuery apenas retorna erros. Parece que uma das minhas GPUs está falhando; meu palpite está no nível do hardware. Aqui está a saída do nvidia-smi:
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 367.57 Driver Version: 367.57 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 GeForce GTX TIT... Off | 0000:05:00.0 Off | N/A |
| 32% 46C P8 28W / 189W | 1MiB / 6079MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 1 GeForce GTX TIT... Off | 0000:06:00.0 Off | N/A |
|ERR! 58C P0 ERR! / 189W | 0MiB / 6082MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 2 GeForce GTX TIT... Off | 0000:09:00.0 On | N/A |
| 31% 50C P0 73W / 189W | 322MiB / 6079MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 3 GeForce GTX TIT... Off | 0000:0A:00.0 Off | N/A |
| 28% 38C P8 32W / 189W | 0MiB / 6082MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| 2 4712 G /usr/lib/xorg/Xorg 255MiB |
| 2 5314 G compiz 66MiB |
+-----------------------------------------------------------------------------+
Desejo desativar a GPU 1 para poder usar as outras GPUs para executar as coisas. As GPUs são Titan Zs, então tentar apenas desconectar uma GPU cortaria meu poder computacional pela metade em vez de apenas 1/4. Então, se essa é a única opção, vou fazê-lo, mas eu preferiria outra coisa. Para algum contexto, estou fazendo pesquisas na Rede Neural e, portanto, preciso usar muito as GPUs.