A maneira correta de fazer isso é usar um analisador XML adequado. No entanto, nesse caso, o seguinte pode funcionar como uma solução alternativa:
-
Remova todas as linhas em branco do arquivo:
sed -i '/^\s*$/d' file
-
Adicione uma linha em branco antes de cada
<doc>
:sed -i 's/<doc/\n\n<doc/' file
-
"modo de parágrafo" do User Perl, onde "linhas" são definidas como "parágrafos" (seções de texto precedidas por uma linha vazia):
perl -00 -ne 'print unless /[ĂĹľşÄ]/' file > newfile
Ou para fazer as substituições no arquivo original:
perl -i.bak -00 -ne 'print unless /[ĂĹľşÄ]/' file
IMPORTANTE : isso pressupõe um arquivo bem estruturado em que tudo está dentro de tags <doc...
.