make wget se refere a uma cópia local sem baixar arquivos de forma redundante

4

Eu quero arquivar um quadro de mensagens, faço isso usando o wget com os parâmetros: --page-requisites , --span-hosts , --convert-links e --no-clobber .

O problema é que usar --convert-links desativa --no-clobber . para cada página de thread, o wget faz um re-download de skins, scripts e ícones do site (com o objetivo de mantê-los atualizados).

Existe uma maneira de evitar que o wget baixe arquivos que já existem localmente, referindo-se a links para arquivos em suas cópias locais e somente baixando arquivos que ainda não estão no sistema de arquivos?

    
por Guy Shepherd 15.06.2014 / 18:56

1 resposta

4

Acredito que, se você incluir a opção -N , forçará wget a usar os timestamps.

   -N
   --timestamping
       Turn on time-stamping.

Com essa opção, wget só fará o download de arquivos que ainda não possuem localmente.

Exemplo

Faça o download do arquivo robots.txt que ainda não existe localmente.

$ wget -N http://google.com/robots.txt
--2014-06-15 21:18:16--  http://google.com/robots.txt
Resolving google.com (google.com)... 173.194.41.9, 173.194.41.14, 173.194.41.0, ...
Connecting to google.com (google.com)|173.194.41.9|:80... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: http://www.google.com/robots.txt [following]
--2014-06-15 21:18:17--  http://www.google.com/robots.txt
Resolving www.google.com (www.google.com)... 173.194.46.83, 173.194.46.84, 173.194.46.80, ...
Connecting to www.google.com (www.google.com)|173.194.46.83|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/plain]
Saving to: ‘robots.txt’

    [ <=>                                                                                                                                 ] 7,608       --.-K/s   in 0s      

2014-06-15 21:18:17 (359 MB/s) - ‘robots.txt’ saved [7608]

Tentando uma segunda vez com o arquivo robots.txt localmente:

$ wget -N http://google.com/robots.txt
--2014-06-15 21:18:19--  http://google.com/robots.txt
Resolving google.com (google.com)... 173.194.41.8, 173.194.41.9, 173.194.41.14, ...
Connecting to google.com (google.com)|173.194.41.8|:80... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: http://www.google.com/robots.txt [following]
--2014-06-15 21:18:19--  http://www.google.com/robots.txt
Resolving www.google.com (www.google.com)... 173.194.46.82, 173.194.46.83, 173.194.46.84, ...
Connecting to www.google.com (www.google.com)|173.194.46.82|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/plain]
Server file no newer than local file ‘robots.txt’ -- not retrieving.

Observe que, na segunda vez, wget não recuperou o arquivo novamente.

    
por 16.06.2014 / 03:19

Tags