Uma solução é armazená-lo em um repositório Git.
Como o Git usa o endereçamento baseado em conteúdo, os arquivos inalterados ocupam um espaço adicional insignificante no repositório. As revisões também ocupam pouco espaço porque armazenam diffs. Inicialmente, os blobs são armazenados individualmente compactados, mas o Git periodicamente combina arquivos em pacotes, que são compactados com mais eficiência. Você também pode invocar manualmente essa funcionalidade usando git gc
.
Uma maneira simples de buscar os dados do website é usar wget --mirror
. Como alternativa, verifique se o site de blog fornece uma API XML (que seria mais eficiente em termos de espaço evitando o arquivamento de HTML padronizado). Você deseja baixar as páginas na árvore de trabalho atual.
Então, depois que o download terminar, adicione e confirme tudo no repositório git. Portanto, cada commit representa um instantâneo no tempo.