Does that mean it will only be able to use 25 GB in memory transfers out of those 616?
Não, as limitações que você citou foram aplicáveis à geração anterior de GPU da Nvidia (Volta). Não se aplica à geração atual (Turing).
Does this mean that NVLink is able to just output 25 GB/s in one direction (e.g. input to the GPU)?
Mais abaixo no mesmo artigo, a arquitetura do NVLink é explicada melhor, seria 25 GB / s por link. Se a Nvidia V100 tem a mesma limitação que a Nvidia P100 (Pascal), então seria um total de 150 GB / seg para cima e mais 150 GB / seg para baixo.
Each NVLink (link interface) offers a bidirectional 20 GB/sec up 20 GB/sec down, with 4 links per GP100 GPU, for an aggregate bandwidth of 80 GB/sec up and another 80 GB/sec down.