Eu duvido que cpu seja o fator limitante aqui. Você provavelmente está limitado pela largura de banda da rede para a transferência e pelo disco IO; especialmente latência para todas essas chamadas de estatísticas.
Você pode dividir a hierarquia do sistema de arquivos em partes menores para processar em paralelo?
Quais são os arquivos de origem e o que está sendo escrito ou modificado? Seria possível enviar as alterações à medida que acontecem no nível do aplicativo?