Esse é um efeito bem conhecido: o -segment
divide o vídeo em um ponto de entrada de vídeo válido (ou seja, um quadro I), mas nem sempre em um ponto de entrada de áudio válido.
A melhor maneira de contornar isso é dividir o vídeo e o áudio na primeira etapa:
ffmpeg -i F:\video_data_setk_compressed.mp4 -f segment -segment_time 5 -segment_start_number 1 -c:v copy -an -copyts -avoid_negative_ts 1 F:\video_data_set\test\%d_4k_compressed.mp4 -vn -c:a aac -ar 44100 -b:a 128k F:\video_data_set\test\audio.m4a
prossiga com os segmentos de vídeo como no seu fluxo de trabalho atual.
Para a etapa final use
ffmpeg -hide_banner -f concat -safe 0 -i F:\video_data_set\test\files_2.txt -i F:\video_data_set\test\audio.m4a -map 0:v -map 1:a -c copy -threads 8 F:\video_data_setk_compressed_1.mp4
Para adicionar novamente o áudio.