wget rastejando os resultados da pesquisa do site de notícias

1

Estou tentando rastrear os resultados de pesquisa de um site de notícias usando wget .

O nome do site é www.voanews.com .

Depois de digitar minha palavra-chave de pesquisa e clicar em pesquisa, ela prossegue para os resultados. Então eu posso especificar um "to" e um "from" -date e apertar a pesquisa novamente.

Depois disso, o URL se torna:

http://www.voanews.com/search/?st=article&k=mykeyword&df=10%2F01%2F2013&dt=09%2F20%2F2013&ob=dt#article

e o conteúdo real dos resultados é o que eu quero baixar.

Para conseguir isso, criei o seguinte comando-wget:

wget --reject=js,txt,gif,jpeg,jpg \
     --accept=html \
     --user-agent=My-Browser \
     --recursive --level=2 \
     www.voanews.com/search/?st=article&k=germany&df=08%2F21%2F2013&dt=09%2F20%2F2013&ob=dt#article

Infelizmente, o rastreador não faz o download dos resultados da pesquisa. Ele só entra na barra de links superior, que contém os links "Home, USA, Africa, Asia, ..." e salva os artigos aos quais eles vinculam.

Parece que o rastreador não verifica os links dos resultados da pesquisa em todos .

O que estou fazendo de errado e como posso modificar o comando wget para baixar os links da lista de pesquisa de resultados (e, é claro, os sites aos quais eles vinculam)?

    
por kiltek 03.11.2013 / 00:27

1 resposta

0

Esta não é uma resposta em si ... mas usando o padrão:

wget.exe -o logfile -r -l 2 http://www.voanews.com/search/?st=article&k=german&df=11%2F01%2F2013&dt=11%2F03%2F2013&ob=dt#article

Rastreia todas as páginas (e mais). Eu retiraria a cláusula do agente do usuário e uma exclusão de diretório pai -np .

Em uma nota pessoal ... há muitos links em uma única pesquisa (por exemplo, as tags), para que você receba vários problemas com a recursão padrão.

    
por 03.11.2013 / 02:29