Extrai arquivos de um arquivo da Web (.warc)

Question

Extrai arquivos de um arquivo da Web (.warc)

#1 resposta do (4 votos)
#2 resposta do (1 votos)
#3 resposta do (0 votos)

2

Eu tenho vários sites que estou arquivando para manter muitos dos arquivos vinculados lá, especificamente um número de PDFs.

Eu não tive problemas ao usar o rastreador Heritrix para coletar os sites. No entanto, não encontrei uma boa solução para extrair os arquivos desses arquivos .warc .

Alguém tem experiência com isso ou tem uma maneira preferida de obter esses arquivos individuais?

website archiving webarchive

por wxs 05.08.2013 / 22:01

3 respostas

Tags website archiving webarchive

Como mostrar o arquivo .gitignore na barra lateral no Sublime Text 2/3 Como remover capas de álbuns incorporadas de arquivos mp3 via linha de comando

score 4 · Answer 1

Você pode navegar pelo WARC com o Player da Webarchive e salvar os arquivos que deseja no seu navegador. Alternativamente, envie o WARC para webrecorder.io e navegue / baixe lá.

score 1 · Answer 2

1

Eu sugiro tentar warctools link é python lib que é muito fácil de usar.

por 10.11.2013 / 18:55

score 0 · Answer 3

Eu usei o 7-Zip antes para extrair arquivos individuais ou arquivos inteiros dos arquivos no formato Web Archive.

Está disponível no site aqui .