Como converter HTML em texto?

6

Como é possível converter HTML em arquivo de texto no Linux? Por exemplo, quero curl uma consulta ao Google, depois converto a saída html em texto e leio o texto convertido no meu terminal. Eu estou usando o RHEL6.

    
por rivu 10.11.2013 / 00:05

2 respostas

7

Eu não acho que o curl tenha um processador HTML embutido. No entanto:

lynx --dump <URL>

faz o truque.

Se você ainda quiser usar o curl, você pode usar html2text (disponível no Ubuntu).

    
por 10.11.2013 / 00:07
4

Você pode instalar o html2text (um conversor avançado de HTML para texto) e o uso é direto:

$ html2text http://example.com/
$ cat file.html | html2text -o file.txt

Instale por:

  • Linux: apt-get install html2text
  • OS X: brew install html2text

Exemplo com curl :

$ curl -sL google.com | html2text
Search Images Maps Play YouTube News Gmail Drive More ?
Web History | Settings | Sign in
     A better way to browse the web
       Get Google Chrome

          Advanced search Language tools

        [Google Search][I'm Feeling Lucky]

     Advertising Programmes Business Solutions+GoogleAbout GoogleGoogle.com
                           ? 2016 - Privacy - Terms
    
por 18.01.2016 / 12:29