PDF semântico para conversão em HTML

4

Gostaria de converter um documento PDF em uma coleção de páginas HTML que exibam marcação 'limpa' e gerem / mantenham informações semânticas (capítulos, seções ...), bem como executar tarefas de limpeza (por exemplo, não estou interessado em números de página, ou repetindo o título do capítulo / documento em cada página).

Existe algum programa desse tipo?

Felicidades

    
por Rom1 01.09.2012 / 16:24

2 respostas

0

O Caliber permite a conversão de um formato pdf para htlmz, que é uma página html de arquivo único com dados. Se você quiser usá-lo para criar uma coleção de páginas html, você precisará dividir o pdf primeiro, dependendo do seu sistema operacional. O Caliber funciona em todos os principais sistemas operacionais, instale o programa no link importe o pdf, use a opção 'converter livros' da interface do usuário e escolha o formato htmlz. Existem várias páginas de configurações que podem ser alteradas para obter o resultado final

Existe também uma interface de linha de comando, se é algo que você gostaria de fazer.

    
por 22.08.2013 / 01:05
0

Eu escrevi um, porque eu precisava dele para o meu website schooletc.co.uk transcrevendo centenas de milhares de PDFs em HTML semântico sem fazer um enorme bagunça.

Aqui está meu repositório do link

do Github

É um processo de duas etapas, primeiro os PDFs são processados usando PDFtoHTML (Ex) que produz marcação HTML de apresentação, do que os documentos são processados usando transcript.py produzindo HTML semântico, incluindo cabeçalhos, parágrafos, listas e tabelas de dados.

    
por 20.12.2015 / 17:55