Wget não está funcionando para baixar todos os links de uma página da Web

1

Eu quero baixar todos os arquivos pdf neste site:

http://www.math.utsc.utoronto.ca/b41/

O comando que eu executo é:

wget -r -A "*.pdf" "http://www.math.utsc.utoronto.ca/b41/"

No entanto, se você acessar o site, há uma guia "atribuições", que tem as atribuições de 1 a 10, não faz o download delas por algum motivo? Ainda está no mesmo domínio, http://www.math.utsc.utoronto.ca/b41/a*.pdf , onde 1 <= * <= 10 , mas o wget não baixa isso?

    
por Veesha Dawg 08.12.2017 / 20:06

1 resposta

1

A partir da página de manual de wget :

With HTTP URLs, Wget retrieves and parses the HTML or CSS from the given URL, retrieving the files the document refers to, through markup like href or src, or CSS URI values specified using the ‘url()’ functional notation. If the freshly downloaded file is also of type text/html, application/xhtml+xml, or text/css, it will be parsed and followed further.

Em outras palavras, se o local do arquivo não for explicitamente gravado como href ou src ou algo semelhante na origem da página, mas sim gerado por alguns snippets JavaScript ou retornado (por php, para exemplo) depois de enviar alguns pedidos para o servidor, não há muito wget pode fazer com ele mesmo se ele estiver armazenado no mesmo domínio.

    
por 08.12.2017 / 21:25

Tags