Estou presumindo que você poderá usar a busca com a geração de formas de onda ... caso contrário, você precisará cortar o clipe de som primeiro.
Buscando no FFMpeg:
ffmpeg -ss 00:50:00 -i
começará em 50 segundos no arquivo
e depois usamos o -to 60:45.300
após a entrada para permitir que o arquivo seja reproduzido até aqui.
Combinado com o arquivo de entrada, isso nos dá:
ffmpeg -ss 00:50:00 -to 00:60:43 -i input -filter_complex "showwavespic=s=640x120" -frames:v 1 output.png