wget - como rejeitar string de download de páginas html

1

Estou usando o seguinte comando wget e ele baixa os arquivos necessários que eu preciso, exceto por uma coisa ...

wget -U "Mozilla/5.0" --wait=3 --load-cookies cookies.txt --timestamping --recursive --level=2 --convert-links --no-parent --page-requisites --adjust-extension --max-redirect=0 --exclude-directories=blog --reject "*per_page=18.html" --reject "*per_page=36.html" (url here)

Eu quero baixar arquivos como estes:

a1546997.html

Mas eu não quero baixar arquivos como estes:

a1546997.html? pwd = & per_page = 36.html

Não consigo descobrir como rejeitar o download das páginas html que contêm as coisas extras no final.

O principal problema é que o wget fica bloqueado tentando novamente e atinge o tempo limite nos segundos tipos de links porque o não vai a lugar algum - e então o cliente wget é banido.

Alguma sugestão?

    
por speld_rwong 20.06.2016 / 02:46

1 resposta

0

Tente usar a opção --reject-regex do wget. Você provavelmente poderia fazer algo como:

wget --recursive --no-parent --reject-regex '[^?]' url
    
por 20.06.2016 / 03:33

Tags