Como posso excluir tags html de um arquivo usando sed?

0

Eu tenho um arquivo que é misturado com o texto normal que eu preciso e as tags html. Eu sei que com o REGEX é possível reconhecer tags html e com o sed um pode trocar por uma string vazia, mas eu não sei como aplicá-lo concretamente.

    
por Abdul Al Hazred 16.02.2015 / 13:56

3 respostas

2

Contanto que suas tags HTML fiquem limitadas a uma única linha, as seguintes informações funcionarão:

sed 's/<[^>]*>//g'
    
por 16.02.2015 / 14:24
7

Se você não está insistindo em sed , a melhor coisa a fazer seria lynx .

lynx --dump <filename>.html

Isso gerará o conteúdo do arquivo html no formato que o código html pretendia exibir. A única condição é que o nome do arquivo tenha uma extensão .html ou .htm .

    
por 16.02.2015 / 14:38
3

Eu recomendo strongmente o uso de qualquer um dos programas chamados html2text ( 1 ) (2 ). A análise de HTML é muito mais difícil do que parece.

    
por 16.02.2015 / 16:58