Como posso excluir tags html de um arquivo usando sed?

Question

Como posso excluir tags html de um arquivo usando sed?

#1 resposta do (7 votos)
#2 resposta do (3 votos)
#3 resposta do (2 votos)

0

Eu tenho um arquivo que é misturado com o texto normal que eu preciso e as tags html. Eu sei que com o REGEX é possível reconhecer tags html e com o sed um pode trocar por uma string vazia, mas eu não sei como aplicá-lo concretamente.

sed html regular-expression

por Abdul Al Hazred 16.02.2015 / 12:56

3 respostas

7

Se você não está insistindo em sed , a melhor coisa a fazer seria lynx .

lynx --dump <filename>.html

Isso gerará o conteúdo do arquivo html no formato que o código html pretendia exibir. A única condição é que o nome do arquivo tenha uma extensão .html ou .htm .

por 16.02.2015 / 13:38

3

Eu recomendo strongmente o uso de qualquer um dos programas chamados html2text ( 1 ) (2 ). A análise de HTML é muito mais difícil do que parece.

por 16.02.2015 / 15:58

Tags sed html regular-expression

Por favor, diga como este comando verifica se o rnum tem um inteiro ou não entender essa tabela de partições DOS e clonar para uma nova unidade

score 2 · Accepted Answer

Contanto que suas tags HTML fiquem limitadas a uma única linha, as seguintes informações funcionarão:

sed 's/<[^>]*>//g'