Ao trabalhar com arquivos XML muito grandes, a abordagem recomendada é usar um analisador orientado a eventos SAX. lxml
pode fazer isso em Python
, aqui está um excelente artigo sobre o tema: XML de alto desempenho analisando em Python com lxml .
Outra opção seria usar algo como sed
para remover essas tags do arquivo.
Ou um script Perl
:
perl -i.bak -pe 'BEGIN{undef $/;} s/<mytag>.*<\/mytag>//smg' file.xml