Como alguém disse (ainda não posso deixar um comentário), use uma ferramenta XML para o trabalho. Saxon-HE ( link ) é provavelmente sua melhor aposta - dependendo da estrutura do arquivo XML, você deve ser capaz de usar um XPath curto expressão como esta:
//*[count(ancestor::*) lt 3]
na linha de comando (usando o parâmetro -qs:) para mostrar apenas a parte da árvore em que você está interessado.
edite: mantendo-se dentro do mundo XML, você também terá o manejo de segurança de saber que o Unicode é tratado corretamente e, portanto, você não arriscará perder nenhum dado.