Existe algum filtro linux que converta html para texto formatado simples e bonito?

2

Eu gostaria de filtrar a resposta html proveniente da saída cURL. Qual filtro devo aplicar? A visualização de conteúdo html com o Midnight Commander não é problema, ele os mostra como texto simples formatado, então acho que existe um filtro assim.

    
por Konstantin 30.06.2014 / 21:26

3 respostas

3

Nós chamamos esses filtros de "Navegadores da Web" - um programa que analisa o código HTML e gera um documento bonito.

Links é um dos navegadores da Web de console que roda no Linux.

Elinks é outro.

Além disso, há W3M .

Você sempre pode copiar seu código html para um arquivo de texto e abri-lo com um navegador GUI, como Firefox, Chrome, Opera, etc.

Por favor, não use use o regex para analisar HTML .

EDITAR . Acabei de perceber que você pode querer enfeitar seu HTML e vê-lo com tags. Nesse caso, você pode usar o projeto de biblioteca HTML ou

copie seu HTML para o arquivo de texto e coloque-o em volta de <pre> </pre> tags. Em seguida, abra-o com o seu navegador.

    
por 30.06.2014 / 21:37
0

o comando midnight usa "links" ou "lynx". Eu suspeito que você tenha um deles instalado se você está vendo HTML analisado no mcview.

    
por 30.06.2014 / 22:30
0

Se você gostaria apenas de ver a saída html do curl de uma forma atraente, então w3m, links ou lynx, como sugerido acima, são suficientes.

Se você gostaria de analisar ou fazer qualquer coisa com a saída, então eu recomendo o pacote linux html-xml-utils ou o Beautiful Sopa , que é um pacote Python muito útil para qualquer projeto que envolva captura na web.

    
por 30.06.2014 / 23:02

Tags