Eu uso wget -rkpN -e robots=off http://www.example.com/
-r
significa recursivamente
-k
significa converter links. Portanto, os links na página da Web serão localhost em vez de example.com/bla
-p
significa obter todos os recursos da página da Web para obter imagens e arquivos javascript para que o site funcione
corretamente.
-N
é recuperar os timestamps, portanto, se os arquivos locais forem mais recentes que os arquivos no site remoto, ignore-os.
-e
é uma opção de sinalização que precisa estar lá para que o robots=off
funcione.
robots=off
significa ignorar arquivo de robôs.
Eu também tinha -c
neste comando, então se a conexão cair, continuaria de onde parou quando eu re-executar o comando. Eu percebi que -N
iria bem com -c