Utilitário ou Script para dividir arquivos HTML grandes

2

Eu tenho um fluxo de trabalho que gera arquivos HTML com mais de 10 MB. Eu gostaria de dividir esses arquivos de 10 MB em arquivos menores ... mais no intervalo de 1 MB.

O arquivo HTML possui links internos e âncoras. Assim, qualquer que seja a utilidade que eu use, precisaria alterar o <a href="../foo>foo</a> e o <a id="fooID"></a> apropriadamente para usar os nomes dos arquivos menores.

O que eu imagino é ter algum utilitário quebrando o arquivo em um local predeterminado, provavelmente em cada ponto.

Alguém sabe de um utilitário ou script de linha de comando para automatizar isso?

ATUALIZAÇÃO: acabei criando meu próprio script bash para fazer isso. Eu lamento não poder compartilhar o código, mas vou parafrasear:

  • crie o subdiretório para colocar os arquivos html divididos resultantes
  • dividir o arquivo (usei o xslt 2.0)
    • eu coloquei o original <head> em todos os arquivos
    • Eu usei um xpath que divide o arquivo em uma tag de nível de bloco específica
  • Recurse (xslt 2.0) através do diretório de novos arquivos para criar um arquivo XML temporário com dois campos:
    • o nome do arquivo
    • o @id encontrado
  • Recurse (xslt 2.0) através do diretório de novos arquivos html novamente. Cada @href foi comparado ao arquivo XML dos pares @ id / filename e o href foi corrigido para o novo nome do arquivo, se necessário

Funciona até agora. Porém, não é uma resposta para este Q porque não é um utilitário construído para todos os fins.

    
por Paulb 26.11.2012 / 13:14

0 respostas

Tags