Eu amo o rsync. Mas ainda tem uma falha de design onde quer "carregar" uma lista de todos os arquivos na árvore de diretórios que está digitalizando. Anteriormente, costumava esperar que toda a árvore fosse carregada antes de começar a transmitir a lista para o par. Isso parece ser corrigido agora e faz as coisas em paralelo melhor do que antes. No entanto, ainda quer carregar toda a lista. O impacto é proporcional ao número de arquivos, não ao tamanho dos dados.
Enquanto isso tudo envolve E / S para carregar a lista de todos os diretórios espalhados, esse impacto não pode ser alterado dividindo as coisas, já que tudo ainda deve ser varrido. No entanto, descobri que existe um impacto maior quando a lista é muito grande em uma execução, porque ocupa muito da memória virtual e coloca uma grande demanda em manter essa lista na RAM real pela maneira como ela opera nela. Essa demanda de memória está forçando outros processos a trocar.
A quebra da árvore de diretórios, como você sugeriu, ajudará a quebrar o impacto da demanda de memória.
Há também uma desvantagem para isso se os dados fizerem uso de arquivos com link físico. Se você tiver arquivos com hardlink E eles estiverem com hardlink entre as partes em que você divide a árvore de diretórios, você perderá a capacidade de o rsync manter o mesmo hardlink no destino (servidor de backup). Isso resultará em um maior uso de espaço no destino e, dependendo do tipo de hardlinking, poderá interromper o funcionamento de seus dados (por exemplo, esperar que uma alteração em um arquivo seja vista em outro). Se você não estiver usando explicitamente hardlinks, esse aspecto não será um problema para você.
Conte o número de arquivos que você tem em cada seção que você separa. Tente manter isso balanceado o máximo que puder. O melhor número para limitar depende da sua RAM física disponível e da necessidade de RAM por outros processos.
A largura de banda e as configurações agradáveis provavelmente não serão de muita ajuda para o problema de memória. A largura de banda ainda pode ajudar se também houver problemas de capacidade de rede.