Como faço para espelhar o subdiretório de um site com o wget

0

Eu preciso espelhar o seguinte URL:

link

Mas eu preciso espelhar apenas arquivos a partir desta data '20100515230709' Eu tentei muitas opções de wget , mas eles também pegaram index.html ou arquivos de outras datas também.

Como posso alcançá-lo?

    
por user363641 01.09.2014 / 09:16

1 resposta

0

Do manual do wget (1.15):

Actually, to download a single page and all its requisites (even if they exist on separate websites), and make sure the lot displays properly locally, this author likes to use a few options in addition to ‘-p’:

wget -E -H -k -K -p url

Além disso, o robots.txt pode estar bloqueando algum conteúdo, então adicione -e robots = off

Então você tem:

wget -E -H -k -K -p -e robots=off https://web.archive.org/web/20100515230709/http://markowitzbocadentist.com/

Isso me deu 38 arquivos, todos necessários para essa única página e não mais.

Se você deseja obter mais do que apenas essa página, é necessário fazer o download de (partes de) instantâneos de dias anteriores também. Como o archive.org só obtém as páginas alteradas , um site completo em uma data específica quase sempre consiste em páginas que foram capturadas naquela data, mas em datas mais antigas também. Por exemplo, o link para "Procedimentos" refere-se a uma cópia feita em 2010-10-21 às 08:29:33, que é anterior à data que você mencionou (2010-05-15 às 23:07:09).

Assim, a resposta real à sua pergunta é: você não pode espelhar um instantâneo completo de uma data sem pelo menos baixar partes do instantâneo de outra data também.

Adicionar o -m (opção de espelho) também busca essas páginas.

    
por 01.09.2014 / 11:43

Tags