Use
ffmpeg -ss "00:02:20" -i input.mkv -filter_complex "[0:0][0:4]overlay" -ss 9 -vframes 1 sample.jpg
em que o primeiro valor ss
indica um tempo antes do início das legendas pretendidas.
O segundo ss
deve ser escolhido de forma que o primeiro + segundo ss
seja igual ao último ponto de busca desejado.
Não sei ao certo, mas isso acontece porque a pesquisa de entrada não lida corretamente com legendas se uma entrada estiver em andamento no ponto de busca.