CUDA: cartão nVidia caiu do ônibus

2

Estou começando a programar com CUDA, mas estou enfrentando um problema muito difícil de consertar: depois de algum tempo, o sistema apresenta o erro:

NVRM: GPU a 0000: 03: 00.0 caiu do barramento

E o computador precisa estar desligado para detectar novamente a placa nVidia.

No começo eu pensei que era uma falha no meu código: se eu executasse o mesmo executável por 1000 vezes, as primeiras 200 iterações estavam OK dando a mesma saída, mas então o sistema deu o erro mencionado e todas as iterações restantes dando erros. Eu peguei o exemplo matrixMul do cuda, o compilei e o executei 1000 vezes. O mesmo erro aconteceu em torno da iteração 200 !. Isso me indicou algum problema no driver.

Portanto, e infelizmente sem sucesso, testei o mesmo procedimento com:

  • Diversos drivers, alguns antigos (que os resultados do google declararam poderiam corrigir o problema), os mais recentes de longa duração, os mais recentes experimentais, beta, etc.
  • Cuda 5 e cuda 4.2 com os drivers acima mencionados
  • inicializei apenas no texto sem
  • eu removi o xorgserver completamente
  • Modo persistente ativado.
  • Soluções Seeral propostas nos fóruns e depois da pesquisa no google.

Nenhuma das anteriores funcionou.

Por favor, lembre-se do teste muito simples: eu compilo o exemplo matrixMul (com jusf make) e executo o executável por 1000 vezes. Eu testei isso também no meu macbook pro e tudo correu bem (embora é claro diferente SO, cartão, etc). Eu estou sem noção agora.

O que ainda não testei:

  • Outra versão do kernel.
  • Outra distribuição linux (solução desesperada).

Esta é a informação do meu sistema:

  • Ubuntu 12.04.2
  • Cuda 5
  • Versão atual do driver: 313.30 (baixada diretamente da nvidia)
  • kernel do Ubuntu: 3.2.
  • versão g ++: 4.6
  • Cartão nVidia: Quadro 4000 (GF 100)

Por favor, se você tiver alguma sugestão, me avise. Agradecemos antecipadamente.

    
por iluvatar 15.04.2013 / 17:28

0 respostas