Bem, depois de uma extensa pesquisa por conta própria, eu acho, não existe essa ferramenta ...
No entanto, pelo que vale a pena, descobri a hxnormalização que fez escrever um script em particular que eu precisava, um assunto relativamente simples.
Eu gostaria de ter um script que faça o download de uma página da Web com o curl, direcione-o para o w3m, que é retirado de todo o conteúdo, exceto texto e links.
É possível especificar para a opção -T do w3m, mais do que apenas um tipo de conteúdo e como?
Para esclarecer minha dúvida um pouco mais, aqui está um exemplo:
curl --user-agent "Mozilla/4.0" https://askubuntu.com/questions -s | w3m -dump -T text/html
que retorna apenas o texto da página de perguntas do Ask, mas sem links. Se o w3m não pode fazê-lo, existe alguma outra ferramenta que seja capaz de raspar texto e links simultaneamente?
Bem, depois de uma extensa pesquisa por conta própria, eu acho, não existe essa ferramenta ...
No entanto, pelo que vale a pena, descobri a hxnormalização que fez escrever um script em particular que eu precisava, um assunto relativamente simples.