Utilitários de texto trabalham em linhas (linhas de texto que são sequências (não muito longas) de caracteres não-NUL terminadas por um caractere de nova linha). awk
é o utilitário padrão que pode ser dito para trabalhar no registro separado por outras coisas além de caracteres de nova linha, é por isso que awk
fala de registros ao invés de linhas .
Por exemplo, você pode usar >
como separador registro . Como em:
awk -v RS='>' ...
Outra abordagem é trocar o caractere que você deseja usar como o separador de registro (para outras ferramentas além de awk
) com o caractere de nova linha:
... |
tr '\n>' '>\n' |
sed ... |
other-text-utility... |
tr '\n>' '>\n'
Eles assumem que as coisas que você deseja modificar não incluem tags HTML aninhadas, pois elas iniciariam novos registros.
Isso é substituir