Como baixar um site da Máquina Wayback do archive.org?

Question

Como baixar um site da Máquina Wayback do archive.org?

#1 resposta do (54 votos)
#2 resposta do (9 votos)
#3 resposta do (3 votos)

72

Eu quero obter todos os arquivos para um determinado site no archive.org. As razões podem incluir:

o autor original não arquivou seu próprio site e agora está off-line, quero fazer um cache público dele
Eu sou o autor original de algum site e perdi algum conteúdo. Eu quero recuperá-lo
...

Como faço isso?

Levando em consideração que a máquina wayback do archive.org é muito especial: links de páginas da Web não estão apontando para o arquivo em si, mas para uma página da web que pode não estar mais lá. O JavaScript é usado no lado do cliente para atualizar os links, mas um truque como um wget recursivo não funciona.

web archiving

por user36520 20.10.2014 / 10:16

3 respostas

Tags web archiving

Unix: Como desplugar na tela Como posso determinar se o meu Windows é de 32 bits ou 64 bits usando um comando? [duplicado]

score 54 · Answer 1

Eu tentei diferentes maneiras de baixar um site e finalmente encontrei o “wayback machine downloader” - que foi mencionado por Hartator antes (então todos os créditos vão para ele, por favor), mas eu simplesmente não notei o comentário dele para a pergunta. Para economizar seu tempo, decidi adicionar a gem wayback_machine_downloader como uma resposta separada aqui.

O site em link lista essas maneiras de fazer o download em archive.org:

Wayback Machine Downloader , pequena ferramenta em Ruby para baixar qualquer site da Wayback Machine. Gratuito e de código aberto. Minha escolha!
Warrick - O site principal parece estar indisponível.
Wayback downloader , um serviço que irá baixar seu site da Wayback Machine e até mesmo adicionar um plugin para o Wordpress. Não é livre.

score 9 · Answer 2

Isso pode ser feito usando um script de shell bash combinado com wget .

A ideia é usar alguns dos recursos de URL da máquina de retrocesso:

http://web.archive.org/web/*/http://domain/* listará todas as páginas salvas de http://domain/ recursivamente. Ele pode ser usado para construir um índice de páginas para download e evitar heurísticas para detectar links em páginas da Web. Para cada link, há também a data da primeira versão e da última versão.
http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/page listará toda a versão de http://domain/page para o ano AAAA. Dentro dessa página, links específicos para versões podem ser encontrados (com timestamp exato)
http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/page retornará a página não modificada http://domain/page no registro de data e hora especificado. Observe o token id _ .

Estes são os princípios básicos para criar um script para baixar tudo de um determinado domínio.

score 3 · Answer 3

3

Existe uma ferramenta especificamente criada para esse fim, Warrick: link

É baseado no protocolo Memento.

por 21.01.2015 / 22:38