Estou começando a programar com CUDA, mas estou enfrentando um problema muito difícil de consertar: depois de algum tempo, o sistema apresenta o erro:
NVRM: GPU a 0000: 03: 00.0 caiu do barramento
E o computador precisa estar desligado para detectar novamente a placa nVidia.
No começo eu pensei que era uma falha no meu código: se eu executasse o mesmo executável por 1000 vezes, as primeiras 200 iterações estavam OK dando a mesma saída, mas então o sistema deu o erro mencionado e todas as iterações restantes dando erros. Eu peguei o exemplo matrixMul do cuda, o compilei e o executei 1000 vezes. O mesmo erro aconteceu em torno da iteração 200 !. Isso me indicou algum problema no driver.
Portanto, e infelizmente sem sucesso, testei o mesmo procedimento com:
Nenhuma das anteriores funcionou.
Por favor, lembre-se do teste muito simples: eu compilo o exemplo matrixMul (com jusf make) e executo o executável por 1000 vezes. Eu testei isso também no meu macbook pro e tudo correu bem (embora é claro diferente SO, cartão, etc). Eu estou sem noção agora.
O que ainda não testei:
Esta é a informação do meu sistema:
Por favor, se você tiver alguma sugestão, me avise. Agradecemos antecipadamente.