Acho que consegui executar o que você está procurando.
Eu uso minha configuração para transmitir a partir do meu PC em ~ 50000KBit ~ 720p H264 local para o meu RaspberryPi3 executando um servidor nginx / rtmp e triturar o fluxo via ffmpeg com aceleração de hardware e enviar este fluxo do que para se contorcer em 3500KBit.
É isso que você está procurando? Na primeira olhada, acho que você está perdendo a aceleração da decodificação.
Fluxo # 0: 1 - > # 0: 0 (h264 (nativ) - > h264 (h264_omx))
Você decodifica o fluxo com o codec de software e codifica novamente com o codec de hardware. o codec de software está causando a cuspideira da CPU.
Fluxo # 0: 1 - > # 0: 0 (h264 (h264_mmal) - > h264 (h264_omx))
Dessa forma, você usa a aceleração de hardware h264_mmal para decodificar e a aceleração de hardware h264_omx para codificar.
Eu trabalho em um script de instalação para esta configuração e estou disposto a compartilhar. Se é isso que você procura, posso ajudá-lo.
Você pode ver os resultados no meu canal de contração link