Extrair texto da web

0

Eu estou procurando um pedágio fácil que possa rastrear a web que eu forneço e extrair todos os elementos de texto dele. Será bom se puder: texto simples, alt e título para imagens, seção de cabeçalho. Todos os separadamente, se possível. A saída deve ser de alguma forma pesquisável ou arquivos de texto (xml) para cada página rastreada. Preciso desses textos para passá-los para tradutores.

    
por martin.malek 29.09.2010 / 11:24

1 resposta

2

O bom Lynx pode fornecer-lhe a maioria dos recursos solicitados. Tente lynx -dump http://superuser.com/ , por exemplo.

Você também pode usar wget para rastrear recursivamente os sites de que precisa e processar os arquivos com vários conversores disponíveis, como htmltidy .

    
por 29.09.2010 / 11:32