Você pode navegar pelo WARC com o Player da Webarchive e salvar os arquivos que deseja no seu navegador. Alternativamente, envie o WARC para webrecorder.io e navegue / baixe lá.
Eu tenho vários sites que estou arquivando para manter muitos dos arquivos vinculados lá, especificamente um número de PDFs.
Eu não tive problemas ao usar o rastreador Heritrix para coletar os sites. No entanto, não encontrei uma boa solução para extrair os arquivos desses arquivos .warc
.
Alguém tem experiência com isso ou tem uma maneira preferida de obter esses arquivos individuais?
Você pode navegar pelo WARC com o Player da Webarchive e salvar os arquivos que deseja no seu navegador. Alternativamente, envie o WARC para webrecorder.io e navegue / baixe lá.
Eu sugiro tentar warctools link é python lib que é muito fácil de usar.
Eu usei o 7-Zip antes para extrair arquivos individuais ou arquivos inteiros dos arquivos no formato Web Archive.
Está disponível no site aqui .
Tags website archiving webarchive