Como usar o diff ao fazer o wget?

2

Digamos que haja um site www.songs.com, eu baixei músicas desse site usando o wget -r. Então, digamos, 3 dias depois, houve uma atualização no site e novas músicas foram adicionadas.

Is there any way I download only new songs using wget?

Como está, se eu der o comando

wget - r

Ele fará o download de todo o site.

    
por Dude 23.12.2013 / 18:02

1 resposta

3

Eu acho que você pode tentar usar wget --no-clobber , mas como mencionado acima, você provavelmente vai querer usar uma solução baseada em rsync em vez de HTTP. Supondo que você tenha acesso SSH ao servidor, rsync pode usar isso como um mecanismo de transporte com rsync -za --stats -essh [email protected]:/path/to/files /path/to/local/copy/of/files .

Note, entretanto, que wget --no-clobber -r só obterá arquivos novos desde a última verificação, e não baixará novamente novas cópias que tenham alterado . É por isso que rsync é a melhor solução para o caso de uso que você apresenta.

Outra alternativa que encontrei é o software GPL, HTTrack, que espelha sites inteiros e pode reduzir os diferenciais subseqüentes. Pode ser encontrado aqui . Captura de tela do Windows, mas existem compilações e / ou fontes para Windows, OS X, Linux, BSD e Android (!).

    
por 23.12.2013 / 18:16

Tags