buscando uma ferramenta cria arquivos da Web com espaço eficiente

2

Estou procurando uma ferramenta para arquivar eficientemente um blog que está mudando todos os dias ou até duas ou três vezes por dia. Eu não quero dizer que as postagens de um blog individual mudam - não regularmente de qualquer forma - eu apenas quero dizer que novas entradas de blog são adicionadas e entradas mais antigas são deslocadas pela primeira página. Um problema que vejo é que será ineficiente arquivar a mesma entrada de blog várias vezes. Revisões para a mesma entrada devem ser arquivadas, idealmente, mas o original não precisa ser, pois a revisão é provavelmente devida a uma melhoria ou correção.

É um blog do blogspot.com com texto e imagens estáticas. Uma solução linux é preferida.

    
por H2ONaCl 16.08.2012 / 09:57

1 resposta

1

Uma solução é armazená-lo em um repositório Git.

Como o Git usa o endereçamento baseado em conteúdo, os arquivos inalterados ocupam um espaço adicional insignificante no repositório. As revisões também ocupam pouco espaço porque armazenam diffs. Inicialmente, os blobs são armazenados individualmente compactados, mas o Git periodicamente combina arquivos em pacotes, que são compactados com mais eficiência. Você também pode invocar manualmente essa funcionalidade usando git gc .

Uma maneira simples de buscar os dados do website é usar wget --mirror . Como alternativa, verifique se o site de blog fornece uma API XML (que seria mais eficiente em termos de espaço evitando o arquivamento de HTML padronizado). Você deseja baixar as páginas na árvore de trabalho atual.

Então, depois que o download terminar, adicione e confirme tudo no repositório git. Portanto, cada commit representa um instantâneo no tempo.

    
por 16.08.2012 / 10:45