As GPUs modernas executarão um modo híbrido, em que os drivers / GPU começarão a transmitir dados de textura da RAM do sistema pelo barramento PCIe para compensar a RAM "ausente". Como a RAM do sistema é de 3 a 5 vezes mais lenta que a GDDR5 com latência muito maior, a falta de "VRAM" se traduziria em uma aplicação mais lenta e perda significativa de FPS.
No entanto, o desempenho será limitado pelo bandwitdh PCIe (6 GB / s).
Ao programar com o kit de ferramentas CUDA (v2.2 +), isso é conhecido como cópia zero .
Aqui está o código para isso, para quem está curioso como funciona.
float *a_h, *a_map;
cudaGetDeviceProperties(&prop, 0);
if (!prop.canMapHostMemory)
exit(0);
cudaSetDeviceFlags(cudaDeviceMapHost);
cudaHostAlloc(&a_h, nBytes, cudaHostAllocMapped);
cudaHostGetDevicePointer(&a_map, a_h, 0);
kernel<<<gridSize, blockSize>>>(a_map);
Leia mais em: link