Como baixar arquivos pdf referenciados por páginas de um ou dois níveis dentro da semente

Question

Como baixar arquivos pdf referenciados por páginas de um ou dois níveis dentro da semente

#1 resposta do (2 votos)

2

Eu tenho uma lista de URLs, e eles são todos assim: link ; dentro dessas páginas, há arquivos .pdf sendo referenciados. Preciso baixar esses arquivos com wget ou curl.

Eu tentei fazer isso:

wget -r http://www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225 -l2 --accept .pdf

e

wget -r -l1 --no-parent -A ".pdf" http://www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225

mas recebo um erro de protocolo:

Resolving www.contratos.gov.co (www.contratos.gov.co)... 201.234.78.2 Connecting to www.contratos.gov.co (www.contratos.gov.co)|201.234.78.2|:80... connected. HTTP request sent, awaiting response... 200 OK Length: unspecified [text/html] www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225: Protocol error

Cannot write to 'www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225' (Protocol error)

Quais sinalizadores posso usar para comandar o wget para analisar uma URL e, em seguida, fazer o download de arquivos PDF vinculados dentro da página inicial?

wget

por Alex. S. 26.03.2013 / 00:28

1 resposta

Tags wget

Uma maneira mais rápida de encontrar padrões correspondentes do arquivo externo grep -f {patternfile} {source} no BASH Interação de script crontab estranha (bash)

score 2 · Accepted Answer

Wget e Curl só analisam links dentro das marcas de âncora em um documento HTML.
A página a que você está se referindo usa um método POST com o link para o documento para baixá-lo.

Você terá que baixar o arquivo e analisá-lo manualmente para todos os links. Isso é algo que o wget não fará por você.

EDIT: No entanto, eu não sei porque você está recebendo um erro de protocolo. Você se importaria de executar os mesmos comandos com uma opção --debug e colar a saída em algum lugar onde possamos vê-la?