Ajuda com o script sed para remover os números de citação da Wikipedia

1

Estou apenas começando a aprender sed e awk. Eu tenho que enviar uma tarefa de casa amanhã, que é um copiar e colar da Wikipedia. Apenas a oportunidade de praticar alguns scripts sed!

Então eu tenho o documento em formato html. Agora preciso substituir [<number>] por nada. Como eu faria isso?

Isso é o que eu tentei, mas acho que nem sequer corresponde ao padrão que desejo:

cat content.xml | sed 's/\[\d+\]/ /g' > content2.xml

Como próxima etapa, eu implementarei a substituição desses padrões, que são hiperlinks, mas até mesmo o padrão simples mencionado acima não está sendo correspondido:

<a href="https://en.wikipedia.org/wiki/Immune_system">immune system</a>

e, em seguida, remova as citações:

<a name="cite_ref-Gleeson2007_27-0"/><a href="https://en.wikipedia.org/wiki/Physical_exercise#cite_note-Gleeson2007-27">[27]</a>
    
por daltonfury42 13.08.2015 / 15:30

1 resposta

1

Você foi na direção errada, você deve aprender XML / XSLT em vez disso :) (XML Style Sheet). Tanto para uso com ODT ou XHTML. Para ODT, uma macro pode ser melhor, mas não sei.

Dê uma olhada nesta resposta aceita: tags abertas de correspondência RegEx, exceto tags independentes XHTML

A solução em esta resposta para Como substituir todas as imagens no Libreoffice com sua descrição deve funcionar para você também com pouco modificação.

    
por user.dz 20.09.2015 / 16:16