OK, encontrei a configuração que resolve o problema, é verificar a caixa CUDA-Double precision
na entrada do PowerMizer da ferramenta nvidia-settings
. Eu recebo cerca de 3x melhor desempenho de DP usando CUBLAS. Eu alcanço 1,2 TFlop / s usando uma versão modificada da matriz de amostra CUDAMulCUBLAS que usa DGEMM e, portanto, o problema é resolvido.