A solução foi usar o httrack e personalizar o assistente com cuidado, ou este brilhante liner com o wget:
echo "robots = off" > ~/robots.txt ; wget --mirror --convert-links --html-extension --no-parent --wait=0 "http://10.168.0.4/GameWiki"
Eu preciso de conselhos.
Eu tenho um servidor web vm (LAN, não na internet), tem 2 wikis:
link
link
Eu quero apenas ver as páginas wiki do trabalho de casa, sem entrar na GameWiki?
Meu objetivo é apenas pegar o .htmls (ignorar todos os outros arquivos de imagens etc), com o wget. (Eu não quero fazer uma exportação mysqldump ou mediawiki, mas sim wget para o meu chefe (não-IT) que só quer clicar duas vezes no html).
How can I run wget to only crawl the HomeWorkWiki, and not the GameWiki on this VM.
Obrigado
A solução foi usar o httrack e personalizar o assistente com cuidado, ou este brilhante liner com o wget:
echo "robots = off" > ~/robots.txt ; wget --mirror --convert-links --html-extension --no-parent --wait=0 "http://10.168.0.4/GameWiki"