Existem dois fatores principais.
Primeiro, você está certo que a RAM é a maior delas. Como uma GPU tem que compartilhar a largura de banda da RAM com a CPU, ela simplesmente não pode usar quase a mesma quantidade de RAM. Pior, ele está usando RAM que não está otimizado para uso GPU, assim que a CPU, GPU, e RAMDAC todos luta para a mesma largura de banda preciosa e o caminho entre a GPU e RAM é muito menos direta.
Em segundo lugar, uma GPU dedicada pode ter mais unidades de computação. Você só pode ajustar tantos transistores em um único dado, e um GPU dedicado pode dedicar mais espaço a unidades de computação de GPU.
Não sei ao certo o que você quer dizer com "menos latência". Se você acha que isso significa que a comunicação entre a CPU e a GPU é mais eficiente, basicamente não é. Placas gráficas modernas têm um ótimo caminho que permite que a CPU grave diretamente na GPU (e sua RAM) através de buffers rápidos. Uma GPU dedicada tem mais espaço para esses tipos de buffers porque não está compartilhando o espaço da matriz com a CPU e seus caches.
Sem a GPU RAM, as soluções integradas normalmente exigem comunicação "em massa" CPU / GPU para passar pela RAM regular, que é menos eficiente. A CPU não pode fornecer dados em massa diretamente para a GPU. Isso exigiria que eles funcionassem em sincronia, o que desperdiçaria recursos, porque eles nunca são exatamente da mesma velocidade. E o que a GPU poderia fazer com esses dados em massa além de gravá-los na RAM? Não é como se tivesse outro lugar para guardá-lo enquanto o processa.
A comunicação de CPU para GPU envolve basicamente escrever as informações a serem comunicadas em algum lugar onde ambos os componentes podem obtê-las e, em seguida, dizer à GPU para processar as informações. Com uma solução integrada, essa deve ser a RAM regular, que já é o fator limitante. Com uma solução dedicada, essa pode ser a RAM da GPU, que é muito mais eficiente.