Como posso encontrar as maiores pastas na árvore (caminho mais rápido)

1

Estou escrevendo algo para backup. E estou trabalhando com arquivos / pastas realmente grandes (1 milhão ++, 100TB ++)

Para melhorar minha velocidade, pelo menos eu preciso escolher as 10 maiores pastas na árvore e, para isso, preciso saber algumas informações na árvore.

  1. O que são 10 a 20 pastas maiores na subárvore? (uso de disco)
  2. Quais pastas têm a maioria dos arquivos parciais. (O uso não importa, é para velocidade aleatória de 4k)

Não consigo obter as informações com du -kh porque está demorando muito.

Agora estou pensando; criando a árvore de pastas primeiro, depois disso eu deveria calcular no meu armazenamento local sem arquivos, do que estou pronto para ir.

MAS! Com este caminho, eu apenas conheço a árvore de pastas. Ainda não sei qual pasta tem os arquivos maiores e mais particulados.

Não consegui encontrar as duas informações e agora estou pensando em "método de adivinhação" com a opção 2.

O que devo fazer?

    
por Morphinz 26.01.2017 / 08:29

1 resposta

0

A menos que você esteja trabalhando com um sistema de arquivos especial que retenha as informações e as apresente de volta para você, o polling com du é basicamente o melhor que você pode fazer.

Sistemas de arquivos padrão como o ufs / ext não rastreiam o tamanho total do conteúdo da pasta, então eles devem ser (caros) interrogados.

Mais de 1 milhão de arquivos significa que você não pode fazer coisas instantaneamente, mas ainda é possível executar um du e manter a saída para o futuro.

    
por 26.01.2017 / 09:19

Tags