Quando você diz que quer tirar proveito de múltiplos núcleos, a implicação é que seu tar com gzip é limitado pela CPU e não é IO ligado, você tem certeza que este é o caso? Se você não tem certeza de que precisa executar sar, iostat, top ou verificar gráficos de monitoramento, etc., para descobrir. Nunca é uma boa idéia tentar resolver um problema sem compreendê-lo primeiro. Não estou dizendo que esse é o seu caso com certeza, mas meu palpite é que, mesmo que haja compactação com gzip, é mais provável que você seja vinculado a E / S.
Se for vinculado a E / S e você tiver várias matrizes, um processo separado para cada matriz poderá fazer sentido.
Eu também aconselho David a considerar incremental.