Finalmente, descobri que preciso mesclar os dois fluxos de áudio. Eu usei amerge para combinar esses dois fluxos em um e mapeá-los para a saída. Aqui está um script totalmente funcional que é capaz de fazer a tarefa que eu quero.
ffmpeg -f dshow -i audio="Stereo Mix (Realtek High Definition Audio)" -f dshow -i audio="Microphone Array (Creative VF0800)" -f gdigrab -framerate 10 -video_size 1920x1080 -draw_mouse 1 -i desktop -filter_complex "[0:a][1:a]amerge=inputs=2[a]" -map 2 -map "[a]" screen.avi