Com base nos comentários, os sons como as configurações padrão do filtro sidechaincompress não filtram a música de fundo o suficiente.
Tente
ffmpeg -i background.mp3 -i audio.mp3 \
-filter_complex "[1:a]asplit=2[sc][mix];[0:a][sc]sidechaincompress=threshold=0.1:ratio=5[bg]; \
[bg][mix]amerge[final]"
-map [final] final.mp3
Existem duas variáveis que adicionei.
threshold
especifica quão alto o áudio principal deve ser antes que o compressor sidechain altere o volume da faixa de música. Se o volume da faixa principal estiver baixo, para começar, esse valor pode precisar ser reduzido.
ratio
determina quanto o áudio de fundo é reduzido. O valor padrão é 2
e min,max
é 1,20