wget download recursivamente de páginas com muitos links

1

Ao usar o wget com a opção recursiva ativada, estou recebendo uma mensagem de erro quando estou tentando baixar um arquivo. Ele acha que o link é um arquivo para download quando, na realidade, ele deve apenas segui-lo para chegar à página que realmente contém os arquivos (ou mais links a seguir) que eu quero.

wget -r -l 16 --accept=jpg website.com

A mensagem de erro é: .... uma vez que deve ser rejeitada. Isso geralmente ocorre quando o link do site está tentando buscar termina com uma instrução sql. O problema, no entanto, não ocorre ao usar o mesmo comando wget nesse link. Eu quero saber exatamente como está tentando buscar as páginas. Eu acho que sempre posso dar uma olhada na fonte, embora eu não saiba o quão confuso é o projeto. Eu também poderia estar perdendo exatamente o que "recursivo" significa no contexto do wget. Eu pensei que iria percorrer e viajar em cada link recebendo os arquivos com a extensão que solicitei.

Eu postei isso no stackOverFlow, mas eles me entregaram aqui :) Esperando que vocês possam ajudar.

EDIT: Saída da mensagem de erro

2010-04-13 16:54:47 (128 KB/s) - 'somewebsite.com/index.php?id=917218' saved [10789]

Removing somewebsite.com/index.php?id=917218 since it should be rejected.

Eu prefiro não revelar a fonte do site:)

    
por Shadow 14.04.2010 / 00:18

2 respostas

2

Como apontado por Hugh Allen, usando apenas --accept=jpg fará com que o wget carregue somente arquivos com extensão .jpg (e .htm, .html, que são sempre buscados). É por isso que o wget lhe diz que irá remover o arquivo php. Então tente usar --accept=jpg,php ou similar.

Consulte o wget manual para detalhes. Eu recomendo que você leia, já que explica todo o mecanismo de aceitação / rejeição em detalhes.

    
por 14.04.2010 / 02:17
1

Talvez --accept=jpg signifique rejeitar todo o resto.

    
por 14.04.2010 / 01:53

Tags