Se você estiver disposto a mudar para pulseaudio, um script como esse funcionará:
#!/usr/bin/bash
# video information
INRES="1920x1080"
OUTRES="1280x720"
FPS="24"
QUAL="fast"
FILE_OUT="$1"
#audio information
PULSE_IN="alsa_input.pci-0000_00_1b.0.analog-stereo"
PULSE_OUT="alsa_output.pci-0000_00_1b.0.analog-stereo.monitor"
ffmpeg -f x11grab -s "$INRES" -r "$FPS" -i :0.0 \
-f pulse -i "$PULSE_IN" -f pulse -i "$PULSE_OUT" \
-filter_complex amerge \
-vcodec libx264 -crf 30 -preset "$QUAL" -s "$OUTRES" \
-acodec libmp3lame -ab 96k -ar 44100 -threads 4 -pix_fmt yuv420p \
-f flv "$FILE_OUT"
Os $PULSE_IN
e $PULSE_OUT
vars são os nomes da fonte de entrada (microfone) e da fonte do monitor de saída (alto-falante). Pulseaudio tem coisas chamadas "fontes de monitor" que permitem gravar a saída do alto-falante. Você pode encontrar os nomes das fontes com o comando pactl list sources | grep 'Name:'
Infelizmente, não sei como ativar uma fonte de mixagem estéreo em puro alsa, então o pulso provavelmente é sua melhor aposta.