Você pode usar --reject
ou --exclude-directories
para pular coisas:
wget ... --reject '*backup*' ...
wget ... --exclude-directories '*backup*' ...
Quando eu estava tentando espelhar um site com arquivos Java, arquivos XML, arquivos do ActionScript etc., o wget parece apenas baixar os arquivos mais conhecidos, como xml, txt etc.
Parece não estar baixando os arquivos .java, .as.
Aqui está o meu comando:
wget --no-parent --user=USERNAME--password=PASSWD-e robots=off --header "CUSTOM HEADERS" "http://URL" -r --timeout=25
Não parece haver nada de errado com isso para mim. Quando o download estiver concluído, nenhum dos arquivos .java ou .as estará lá.
Existe também uma maneira de pular todos os diretórios que contenham uma string? Por exemplo, se um diretório é chamado "backup3r98238943r3jrefi", posso ignorá-lo por ter a palavra "backup" nele? Eu quero pular qualquer diretório localizado em qualquer diretório / subdir sobre o site com uma palavra-chave.
Você pode usar --reject
ou --exclude-directories
para pular coisas:
wget ... --reject '*backup*' ...
wget ... --exclude-directories '*backup*' ...