nvprof
pode imprimir boas estatísticas se você colocar as opções apropriadas. Infelizmente não tenho nenhum exemplo de saída, mas pode ser usado assim:
nvprof \
--devices 0 \
--metrics l1_cache_global_hit_rate \
--metrics shared_load_transactions \
./your_app