Por que wget pulando arquivos ao tentar espelhar um site

2

Eu executei o wget neste site: link , mas ele retorna apenas um único index.html

wget --recursive --no-clobber --page-requisites --html-extension --convert-links --restrict-file-names=windows --domains --no-parent http://demo.codestag.com/geeklove

Eu tentei falsificar o useragent como aqui: link , mas ainda não é possível.

Quando usei a opção --debug, mostrei que ela ignorou todas as outras páginas.

    
por frazras 19.06.2013 / 09:47

1 resposta

4

A opção --domains especifica uma lista de domínios a serem seguidos. Como você não especifica nada após essa opção, o wget faz o download apenas dos arquivos diretamente especificados.

Se você remover essa opção ou substituí-la por --domains demo.codestag.com , o wget ainda se recusará a baixar mais arquivos devido ao robots.txt neste servidor. Para ignorar este arquivo, você deve especificar -e robots=off .

Se você tiver mais problemas, é sempre útil especificar -d ( --debug ) para ver o que incomoda o wget.

    
por 19.06.2013 / 10:12