Você pode tentar usar a concat filtro ; requer recodificação e, portanto, terá mais recursos do sistema (uma quantidade muito pequena em qualquer computador vagamente moderno, neste caso específico), mas PCM - > O áudio PCM deve ser matematicamente sem perdas. No seu caso, você usaria algo como:
ffmpeg -i input1.wav -i input2.wav -i input3.wav -i input4.wav \
-filter_complex '[0:0][1:0][2:0][3:0]concat=n=4:v=0:a=1[out]' \
-map '[out]' output.wav
Se você tiver cinco arquivos de entrada, use n=5
.