Versões mais recentes do FFmpeg talvez usem o filtro de vídeo de escala, eu dou um exemplo abaixo que também simplesmente copia a faixa de áudio como você pediu:
ffmpeg -i input.wmv \
-c:v libx264 -preset veryslow -tune film -crf 22 -vf scale=-2:720 \
-c:a copy \
output.mp4
A opção -tune
pode ser omitida ou você pode experimentar -tune animation
dependendo do tipo de videoclipe que você está usando.
Se você decidiu que gostaria de transcodificar o áudio, você poderia fazer algo pior do que usar a biblioteca externa libfdk_aac da seguinte forma:
ffmpeg -i input.wmv \
-c:v libx264 -preset veryslow -tune film -crf 22 -vf scale=-2:720 \
-c:a libfdk_aac -b:a 128k \
output.mp4
e isso é certamente o que eu faria com um arquivo wmv que eu estava escalando, você deve achar os resultados mais do que aceitáveis ...