Estou tentando rastrear os resultados de pesquisa de um site de notícias usando wget .
O nome do site é www.voanews.com .
Depois de digitar minha palavra-chave de pesquisa e clicar em pesquisa, ela prossegue para os resultados. Então eu posso especificar um "to" e um "from" -date e apertar a pesquisa novamente.
Depois disso, o URL se torna:
http://www.voanews.com/search/?st=article&k=mykeyword&df=10%2F01%2F2013&dt=09%2F20%2F2013&ob=dt#article
e o conteúdo real dos resultados é o que eu quero baixar.
Para conseguir isso, criei o seguinte comando-wget:
wget --reject=js,txt,gif,jpeg,jpg \
--accept=html \
--user-agent=My-Browser \
--recursive --level=2 \
www.voanews.com/search/?st=article&k=germany&df=08%2F21%2F2013&dt=09%2F20%2F2013&ob=dt#article
Infelizmente, o rastreador não faz o download dos resultados da pesquisa. Ele só entra na barra de links superior, que contém os links "Home, USA, Africa, Asia, ..." e salva os artigos aos quais eles vinculam.
Parece que o rastreador não verifica os links dos resultados da pesquisa em todos .
O que estou fazendo de errado e como posso modificar o comando wget para baixar os links da lista de pesquisa de resultados (e, é claro, os sites aos quais eles vinculam)?