wget: Desativar o Forçado .html Retreival

Question

wget: Desativar o Forçado .html Retreival

#1 resposta do (0 votos)

0

Ao executar um download recursivo, especifico um padrão por meio do parâmetro -R para o wget rejeitar, mas se esse arquivo for um arquivo HTML, o wget fará o download do arquivo, independentemente de corresponder ou não ao padrão.

por exemplo,

wget -r -R "*dynamicfile*" example.com

ainda recupera arquivos como example.com/dynamicfile1.html

Existe uma maneira de evitar isso?

wget html recursive web-crawler

por Mike B 20.04.2010 / 17:13

1 resposta

Tags wget html recursive web-crawler

SSH na caixa do Ubuntu usando chaves RSA A barra de idiomas mudou os tipos de entrada para mim

score 0 · Answer 1

Ele faz isso porque o wget usa os arquivos html para saber onde procurar em seguida, conforme ele percorre a página da Web. Eu apenas deixaria o wget fazer o seu negócio e então fazer um rm * .html depois que estiver pronto, ou algo similar.

EDITAR: Fazer um rsync *dynamicfile* /foo/bar para um segundo diretório pode ser uma maneira melhor de filtrar seus arquivos para manter apenas aqueles com o nome correto (supondo que você queira manter alguns dos html arquivos se tiverem o nome correto)