Como baixar um site da Máquina Wayback do archive.org?

72

Eu quero obter todos os arquivos para um determinado site no archive.org. As razões podem incluir:

  • o autor original não arquivou seu próprio site e agora está off-line, quero fazer um cache público dele
  • Eu sou o autor original de algum site e perdi algum conteúdo. Eu quero recuperá-lo
  • ...

Como faço isso?

Levando em consideração que a máquina wayback do archive.org é muito especial: links de páginas da Web não estão apontando para o arquivo em si, mas para uma página da web que pode não estar mais lá. O JavaScript é usado no lado do cliente para atualizar os links, mas um truque como um wget recursivo não funciona.

    
por user36520 20.10.2014 / 12:16

3 respostas

54

Eu tentei diferentes maneiras de baixar um site e finalmente encontrei o “wayback machine downloader” - que foi mencionado por Hartator antes (então todos os créditos vão para ele, por favor), mas eu simplesmente não notei o comentário dele para a pergunta. Para economizar seu tempo, decidi adicionar a gem wayback_machine_downloader como uma resposta separada aqui.

O site em link lista essas maneiras de fazer o download em archive.org:

  • Wayback Machine Downloader , pequena ferramenta em Ruby para baixar qualquer site da Wayback Machine. Gratuito e de código aberto. Minha escolha!
  • Warrick - O site principal parece estar indisponível.
  • Wayback downloader , um serviço que irá baixar seu site da Wayback Machine e até mesmo adicionar um plugin para o Wordpress. Não é livre.
por 14.08.2015 / 20:19
9

Isso pode ser feito usando um script de shell bash combinado com wget .

A ideia é usar alguns dos recursos de URL da máquina de retrocesso:

  • http://web.archive.org/web/*/http://domain/* listará todas as páginas salvas de http://domain/ recursivamente. Ele pode ser usado para construir um índice de páginas para download e evitar heurísticas para detectar links em páginas da Web. Para cada link, há também a data da primeira versão e da última versão.
  • http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/page listará toda a versão de http://domain/page para o ano AAAA. Dentro dessa página, links específicos para versões podem ser encontrados (com timestamp exato)
  • http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/page retornará a página não modificada http://domain/page no registro de data e hora especificado. Observe o token id _ .

Estes são os princípios básicos para criar um script para baixar tudo de um determinado domínio.

    
por 20.10.2014 / 12:16
3

Existe uma ferramenta especificamente criada para esse fim, Warrick: link

É baseado no protocolo Memento.

    
por 21.01.2015 / 23:38

Tags