Apesar da viabilidade do sistema de arquivos subjacente, você REALMENTE NUNCA deve armazenar tantos arquivos em um diretório. Quando chega a hora de procurar o conteúdo desse diretório, você vai descobrir rapidamente que há uma enorme quantidade de atraso, enquanto o sistema operacional tenta construir a listagem de arquivos e tal. Isso realmente coloca uma quantidade significativa de tensão no sistema.
A maioria das ferramentas que fazem qualquer tipo de "arquivamento na Web" geralmente cria uma estrutura de diretórios semelhante ao layout do site. Quase todos os sites não baseiam todos os seus conteúdos fora do diretório raiz ... ou seja, mydomain.com/document-1 ... eles terão alguma logística por trás disso tudo que o dividiu em vários caminhos (por uma variedade de razões) ou seja, imagens em mydomain.com/images e outras coisas sobre goldfish estão em mydomain.com/goldfish/ etc ...
Existem várias ferramentas que podem & vai construir esse tipo de estrutura de diretórios para você. Mesmo o wget tem opções para baixar um site inteiro. Pessoalmente, eu usei " httrack " no passado, e funcionou muito bem. Há também opções de linha de comando para o wget fazer o download de um site inteiro também. Olhe para a opção -r (recursiva). Apenas certifique-se de configurar sua lista de domínios para que você não baixe links infinitamente em vários sites. Melhor fazer algumas pesquisas na página de manual do wget .