Os documentos XML / HTML devem ser processados com as ferramentas adequadas do analisador.
xmllint
abordagem (com sed
de suporte para pesquisar / substituir dentro do texto arbitrário do corpo da tag <script>
):
$ xmllint --html --xpath '//script/text()' input.html | sed -En 's/.*\|([^|]+)\|data\|new.*//p'
mystring123
$ xmllint --html --xpath '//div[@class="description"]/text()' input.html
mytitle123