Obtendo texto e links de uma página da web

Question

Obtendo texto e links de uma página da web

#1 resposta do S.R. (1 votos)

0

Eu gostaria de ter um script que faça o download de uma página da Web com o curl, direcione-o para o w3m, que é retirado de todo o conteúdo, exceto texto e links.

É possível especificar para a opção -T do w3m, mais do que apenas um tipo de conteúdo e como?

Para esclarecer minha dúvida um pouco mais, aqui está um exemplo:

curl --user-agent "Mozilla/4.0" https://askubuntu.com/questions -s | w3m -dump -T text/html

que retorna apenas o texto da página de perguntas do Ask, mas sem links. Se o w3m não pode fazê-lo, existe alguma outra ferramenta que seja capaz de raspar texto e links simultaneamente?

por S.R. 30.07.2016 / 19:26

1 resposta

Qual driver da GPU instalado? Não é possível instalar o Ubuntu ao lado do Windows 10 em disco separado

score 1 · Answer 1

Bem, depois de uma extensa pesquisa por conta própria, eu acho, não existe essa ferramenta ...

No entanto, pelo que vale a pena, descobri a hxnormalização que fez escrever um script em particular que eu precisava, um assunto relativamente simples.