Obtendo texto e links de uma página da web

0

Eu gostaria de ter um script que faça o download de uma página da Web com o curl, direcione-o para o w3m, que é retirado de todo o conteúdo, exceto texto e links.

É possível especificar para a opção -T do w3m, mais do que apenas um tipo de conteúdo e como?

Para esclarecer minha dúvida um pouco mais, aqui está um exemplo:

curl --user-agent "Mozilla/4.0" https://askubuntu.com/questions -s | w3m -dump -T text/html

que retorna apenas o texto da página de perguntas do Ask, mas sem links. Se o w3m não pode fazê-lo, existe alguma outra ferramenta que seja capaz de raspar texto e links simultaneamente?

    
por S.R. 30.07.2016 / 21:26

1 resposta

1

Bem, depois de uma extensa pesquisa por conta própria, eu acho, não existe essa ferramenta ...

No entanto, pelo que vale a pena, descobri a hxnormalização que fez escrever um script em particular que eu precisava, um assunto relativamente simples.

    
por S.R. 01.08.2016 / 04:33