PDF semântico para conversão em HTML

Question

PDF semântico para conversão em HTML

#1 resposta do (0 votos)
#2 resposta do (0 votos)

4

Gostaria de converter um documento PDF em uma coleção de páginas HTML que exibam marcação 'limpa' e gerem / mantenham informações semânticas (capítulos, seções ...), bem como executar tarefas de limpeza (por exemplo, não estou interessado em números de página, ou repetindo o título do capítulo / documento em cada página).

Existe algum programa desse tipo?

Felicidades

pdf conversion html

por Rom1 01.09.2012 / 14:24

2 respostas

Tags pdf conversion html

Precisa copiar um arquivo da caixa unix para a pasta windows usando o comando pscp Reconexão automática do Pidgin

score 0 · Answer 1

O Caliber permite a conversão de um formato pdf para htlmz, que é uma página html de arquivo único com dados. Se você quiser usá-lo para criar uma coleção de páginas html, você precisará dividir o pdf primeiro, dependendo do seu sistema operacional. O Caliber funciona em todos os principais sistemas operacionais, instale o programa no link importe o pdf, use a opção 'converter livros' da interface do usuário e escolha o formato htmlz. Existem várias páginas de configurações que podem ser alteradas para obter o resultado final

Existe também uma interface de linha de comando, se é algo que você gostaria de fazer.

score 0 · Answer 2

Eu escrevi um, porque eu precisava dele para o meu website schooletc.co.uk transcrevendo centenas de milhares de PDFs em HTML semântico sem fazer um enorme bagunça.

Aqui está meu repositório do link

do Github

É um processo de duas etapas, primeiro os PDFs são processados usando PDFtoHTML (Ex) que produz marcação HTML de apresentação, do que os documentos são processados usando transcript.py produzindo HTML semântico, incluindo cabeçalhos, parágrafos, listas e tabelas de dados.