Como Luciano diz no comentário, a E / S do disco é provavelmente a causa.
O motivo para obter mais processos é que seu pipeline iniciará pelo menos 5 processos. Então você deve ver pelo menos 64 * 5 processos sendo iniciados. Alguns deles também podem iniciar vários threads.
A E / S de disco paralela é muito imprevisível (consulte link ), e é praticamente impossível dizer quantos trabalhos em paralelo é o ideal, porque depende de muitos fatores.
Então, para otimizar seu fluxo, eu ajustaria o número de trabalhos até obter o maior rendimento. Você pode usar --joblog para ajudá-lo a ver quanto tempo cada trabalho é executado.