Sua melhor aposta seria criar seu próprio conjunto de ferramentas para isso:
- Use uma ferramenta como
wget
para baixar recursivamente os arquivos HTML dos quais o conteúdo é necessário. Preste atenção especial às opções-r
para especificar o download recursivo e-l
para especificar a profundidade da recursão.wget
produz texto simples. - Use uma ferramenta como
grep
para filtrar tudo, exceto a (s) linha (s) contendo o<DIV>
necessário. Preste especial atenção às opções-r
para especificar a pesquisa recursiva e-e
para especificar uma expressão regular. Pipe a saída degrep
para um arquivo de sua escolha.grep
produz texto simples se for alimentado com texto simples.
Dica: pode ser mais simples usar grep
várias vezes para filtrar as coisas em partes menores. Isso depende inteiramente de como todas as páginas são semelhantes e de como o código é limpo.
Editar: Então, novamente, talvez usar uma regex não é uma boa maneira de analisar HTML .