O problema é principalmente o fato de você estar usando transcodificação de software , em vez de transcodificação de hardware .
Como regra geral, se a conversão usar a aceleração de hardware, a latência será de menos de uma segunda ordem (geralmente milissegundos). Se isso for feito no software, a latência será de mais de uma segunda ordem.
O FFmpeg suporta aceleração de hardware, mas geralmente é complicado fazer com que funcione para você.
Por outro lado, o Google Chrome suporta codificação / decodificação de hardware do VP8 e do H264 (onde está disponível), tanto no seu computador como no seu telefone Android:
link