Existe uma maneira de dividir um arquivo HTML sem perder toda a formatação dentro de cada segmento?

2

Então ... o comando split permite dividir um arquivo em partes. O problema com isso, porém, é que apenas um dos arquivos conterá os cabeçalhos HTML e apenas um deles conterá os rodapés HTML.

(isso provavelmente é relevante para muitos outros arquivos que contêm informações de cabeçalho / rodapé)

    
por InquilineKea 06.09.2011 / 07:44

2 respostas

1

A maioria das ferramentas unix, como split , são agnósticas em formato de arquivo. Para dividir arquivos que usam um formato específico (como HTML) em arquivos menores formatados validamente, use ferramentas específicas. Para a divisão HTML, htmldoc é o primeiro que encontrei procurando rapidamente na web. Foi empacotado (pelo menos em debian, ubuntu, fedora, gentoo, etc…).

Não use os truques sed -ish que fazem suposições problemáticas sobre os arquivos, pois isso seria um tiro em falso um dia ou outro.

    
por 06.09.2011 / 09:42
1

Você pode primeiro extrair e remover o cabeçalho / rodapé do arquivo de origem, dividi-lo e adicionar o cabeçalho / rodapé extraído a cada divisão.

Você pode usar xpath ou sed para editar o arquivo de origem.

Por exemplo, esta linha de comando retira o rodapé do cabeçalho de um arquivo:

$ sed -e '0,/<body>/d' -e '/<\/body>/,$d input.html

Onde sed é o GNU e é assumido que uma marca corporal está em sua própria linha.

    
por 06.09.2011 / 09:20

Tags