Tente usar a opção --reject-regex do wget. Você provavelmente poderia fazer algo como:
wget --recursive --no-parent --reject-regex '[^?]' url
Estou usando o seguinte comando wget e ele baixa os arquivos necessários que eu preciso, exceto por uma coisa ...
wget -U "Mozilla/5.0" --wait=3 --load-cookies cookies.txt --timestamping --recursive --level=2 --convert-links --no-parent --page-requisites --adjust-extension --max-redirect=0 --exclude-directories=blog --reject "*per_page=18.html" --reject "*per_page=36.html" (url here)
Eu quero baixar arquivos como estes:
a1546997.html
Mas eu não quero baixar arquivos como estes:
a1546997.html? pwd = & per_page = 36.html
Não consigo descobrir como rejeitar o download das páginas html que contêm as coisas extras no final.
O principal problema é que o wget fica bloqueado tentando novamente e atinge o tempo limite nos segundos tipos de links porque o não vai a lugar algum - e então o cliente wget é banido.
Alguma sugestão?
Tente usar a opção --reject-regex do wget. Você provavelmente poderia fazer algo como:
wget --recursive --no-parent --reject-regex '[^?]' url
Tags wget