Extrair texto da web

Question

Extrair texto da web

#1 resposta do (2 votos)

0

Eu estou procurando um pedágio fácil que possa rastrear a web que eu forneço e extrair todos os elementos de texto dele. Será bom se puder: texto simples, alt e título para imagens, seção de cabeçalho. Todos os separadamente, se possível. A saída deve ser de alguma forma pesquisável ou arquivos de texto (xml) para cada página rastreada. Preciso desses textos para passá-los para tradutores.

extract web-crawler

por martin.malek 29.09.2010 / 09:24

1 resposta

Tags extract web-crawler

Por que não consigo executar o processo de segundo plano em “at now jobsfile” no Mac? Não é possível encontrar o Windows Media Player

score 2 · Answer 1

O bom Lynx pode fornecer-lhe a maioria dos recursos solicitados. Tente lynx -dump http://superuser.com/ , por exemplo.

Você também pode usar wget para rastrear recursivamente os sites de que precisa e processar os arquivos com vários conversores disponíveis, como htmltidy .