Para ajudar os outros, estou postando a solução que encontrei:
Mistura várias entradas de áudio em uma única saída.
Por exemplo
ffmpeg -i INPUT1 -i INPUT2 -i INPUT3 -filter_complex amix=inputs=3:duration=first:dropout_transition=3 OUTPUT
O comando acima irá misturar 3 streams de áudio de entrada em uma única saída com a mesma duração da primeira entrada e um tempo de transição de dropout de 3 segundos.