Como baixar arquivos pdf referenciados por páginas de um ou dois níveis dentro da semente

2

Eu tenho uma lista de URLs, e eles são todos assim: link ; dentro dessas páginas, há arquivos .pdf sendo referenciados. Preciso baixar esses arquivos com wget ou curl.

Eu tentei fazer isso:

wget -r http://www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225 -l2 --accept .pdf

e

wget -r -l1 --no-parent -A ".pdf" http://www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225  

mas recebo um erro de protocolo:

Resolving www.contratos.gov.co (www.contratos.gov.co)... 201.234.78.2 Connecting to www.contratos.gov.co (www.contratos.gov.co)|201.234.78.2|:80... connected. HTTP request sent, awaiting response... 200 OK Length: unspecified [text/html] www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225: Protocol error

Cannot write to 'www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225' (Protocol error)

Quais sinalizadores posso usar para comandar o wget para analisar uma URL e, em seguida, fazer o download de arquivos PDF vinculados dentro da página inicial?

    
por Alex. S. 26.03.2013 / 01:28

1 resposta

2

Wget e Curl só analisam links dentro das marcas de âncora em um documento HTML.
A página a que você está se referindo usa um método POST com o link para o documento para baixá-lo.

Você terá que baixar o arquivo e analisá-lo manualmente para todos os links. Isso é algo que o wget não fará por você.

EDIT: No entanto, eu não sei porque você está recebendo um erro de protocolo. Você se importaria de executar os mesmos comandos com uma opção --debug e colar a saída em algum lugar onde possamos vê-la?

    
por 26.03.2013 / 09:23

Tags