Extrai arquivos de um arquivo da Web (.warc)

2

Eu tenho vários sites que estou arquivando para manter muitos dos arquivos vinculados lá, especificamente um número de PDFs.

Eu não tive problemas ao usar o rastreador Heritrix para coletar os sites. No entanto, não encontrei uma boa solução para extrair os arquivos desses arquivos .warc .

Alguém tem experiência com isso ou tem uma maneira preferida de obter esses arquivos individuais?

    
por wxs 06.08.2013 / 00:01

3 respostas

4

Você pode navegar pelo WARC com o Player da Webarchive e salvar os arquivos que deseja no seu navegador. Alternativamente, envie o WARC para webrecorder.io e navegue / baixe lá.

    
por 09.01.2017 / 10:37
1

Eu sugiro tentar warctools link é python lib que é muito fácil de usar.

    
por 10.11.2013 / 19:55
0

Eu usei o 7-Zip antes para extrair arquivos individuais ou arquivos inteiros dos arquivos no formato Web Archive.

Está disponível no site aqui .

    
por 06.08.2013 / 00:30