Nem todos os meus arquivos de entrada eram 256k, alguns eram 705k, então o demuxer concat usava o primeiro arquivo, que era 705k.
Eu consertei consertando meus arquivos de entrada criados por:
ffmpeg -f lavfi -i aevalsrc=0:duration=2:sample_rate=16000 silence.wav
A chave foi adicionar sample_rate ao arquivo aevalsrc - essa parte foi adicionada após a ajuda de Mulvya.