Um mês atrás, eu usei " wget --mirror "para criar um espelho do nosso site público para uso temporário durante uma próxima janela de manutenção programada. Nosso site principal é executado em HTML, PHP e amp; MySQL, mas o mirror precisa apenas de HTML, nenhum conteúdo dinâmico, PHP ou banco de dados necessários.
O seguinte comando irá criar um simples espelho online do nosso site:
wget --mirror http://www.example.org/
Observe que o manual do Wget diz que --mirror
"é atualmente equivalente a -r -N -l inf --no-remove-listing
"(O equivalente legível a humanos é '--recursivo --timestamping --level = inf --no-remove-listing.
Agora, um mês depois, e muito do conteúdo do site mudou. Quero que o wget verifique todas as páginas e faça o download de todas as páginas que foram alteradas. No entanto, isso não está funcionando.
Minha pergunta:
O que preciso fazer para atualizar o espelho do site, sem excluir o diretório e executar novamente o espelho?
O arquivo de nível superior no link não foi alterado, mas há muitos outros arquivos que têm mudou.
Pensei que tudo o que eu precisava fazer era executar novamente o wget --mirror
, porque --mirror
implica os sinalizadores --recursive
"especificar o download recursivo" e --timestamping
"Não recuperar arquivos novamente, a menos que seja mais recente que local " Eu pensei que isso iria verificar todas as páginas e só recuperar arquivos que são mais recentes que as minhas cópias locais. Estou errado?
No entanto, o wget não recorre ao site na segunda tentativa. 'wget --mirror' verificará o link , observe que essa página não foi alterada e, em seguida, pare.
--2010-06-29 10:14:07-- http://www.example.org/
Resolving www.example.org (www.example.org)... 10.10.6.100
Connecting to www.example.org (www.example.org)|10.10.6.100|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Server file no newer than local file "www.example.org/index.html" -- not retrieving.
Loading robots.txt; please ignore errors.
--2010-06-29 10:14:08-- http://www.example.org/robots.txt
Connecting to www.example.org (www.example.org)|10.10.6.100|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 136 [text/plain]
Saving to: “www.example.org/robots.txt”
0K 100% 6.48M=0s
2010-06-29 10:14:08 (6.48 MB/s) - "www.example.org/robots.txt" saved [136/136]
--2010-06-29 10:14:08-- http://www.example.org/news/gallery/image-01.gif
Reusing existing connection to www.example.org:80.
HTTP request sent, awaiting response... 200 OK
Length: 40741 (40K) [image/gif]
Server file no newer than local file "www.example.org/news/gallery/image-01.gif" -- not retrieving.
FINISHED --2010-06-29 10:14:08--
Downloaded: 1 files, 136 in 0s (6.48 MB/s)