Correções rápidas de HTML para tags fora de ordem e não divulgadas

0

Eu tenho alguns documentos HTML que preciso consertar em lote. Os principais problemas no arquivo são:

  • Tags fora de pedido ( <p><i>like this</p></i> )
  • Tags não fechadas ( <p>like this )

Sei que a saída não será perfeita, mas preciso reparar rapidamente esses problemas simples para processamento posterior.

Existe uma ferramenta para isso? Eu quero uma ferramenta de linha de comando que seja executada no Mac OS X ou Linux. Se não houver nada disponível, acabarei escrevendo o meu, mas prefiro algo que já tenha sido construído para a tarefa, se existir.

Para esclarecer: Esta não é uma questão de recomendação de software - eu tenho certeza que não há um único software que faça isso, estou procurando mais por partes e peças para montar , como sed / awk / Python / etc. que pode realizá-lo. Os dois problemas principais são os tags fora de ordem e não divulgados mencionados acima. Se eu puder resolvê-los, os problemas restantes serão muito mais fáceis de resolver (codificação, etc.)

    
por Justin Mrkva 25.11.2013 / 14:10

1 resposta

0

HTML Tidy :

HTML Tidy is a tool for checking and cleaning up HTML source files. It is especially useful for finding and correcting errors in deeply nested HTML, or for making grotesque code legible once more.

    
por 26.11.2013 / 01:48

Tags