Não consigo ver como seria a entrada para o seu programa ou a página "resultados" mencionada, mas eis como eu tentaria resolver isso:
curl
permite que você baixe o código-fonte de uma página da web. Então curl archive.org/whatever
te dá a página de resultados em texto simples.
Você pode canalizar isso para grep
e pesquisar as tags de âncora do HTML ( <a href="location.of/the-linked-page">a description of the link</a>
). Aqui está uma chamada grep que pode servir como ponto de partida: | grep -o '<a href.*</a>
( -o
imprime apenas as partes correspondentes da string. Talvez seja necessário substituir o espaço entre a
e href
pela classe space
ou experimente com formas não-gananciosas de *
, dependendo da sua entrada.) Você também irá recuperar todos links nessa página, então outra (ou múltipla) rodada (s) de grepping é necessária para remover os links de navegação, anúncios, etc.
Depois, usando sed
, você remove a "confusão" como <a>
, href
, etc. para recuperar apenas o link puro. Você pode, então, alimentar a saída em um loop for, que novamente usa o curl para recuperar o conteúdo desses links. Em essa saída, finalmente, você pode realizar sua análise de palavras usando grep -c
, como menciona vidarlo.