Convertendo PDFs em HTML com pdf2htmlEX: A saída pode ser usada para análise de html?

Question

Convertendo PDFs em HTML com pdf2htmlEX: A saída pode ser usada para análise de html?

#1 resposta do (0 votos)

0

Estou implementando algum algoritmo de análise e para isso preciso converter PDFs em html e escolhi pdf2htmlEX para essa finalidade. Eu quero analisar os dados com base em cabeçalhos e parágrafos.

A biblioteca pdf2HTMLEx funciona muito bem em termos de UX, mas o texto HTML produzido está cheio de <span> e <div> tags e pode ser difícil de entender, pois não é muito legível nem inclui tags de título etc.

Assim:

1. The model of perfect competition is more useful for analy <span class="_ _0"> <span>zing situations in which firms <span class="_ _1"></span> </div><div class="t m0 x5 h2 y35 ff2 fs1 fc0 sc0 ls1 ws0">a. engage in price wars in order to secure a position in the market  </div>

Minhas perguntas são:

Como posso separar cada título junto com seus parágrafos?
Existe alguma maneira de fazer isso usando pdf2htmlEX?

pdf css html

por Falcon 24.02.2017 / 08:03

1 resposta

Tags pdf css html

Como posso produzir uma tabela mantendo o mesmo formato das colunas, talvez o tamanho da janela CLI O Elitebook 8470p não se comunica com o ipad3 através do bluetooth

score 0 · Answer 1

Eu tentei o mesmo para analisar extratos bancários. O que funcionou melhor para mim não foi converter para HTML, mas converter a saída para XML.

Surpreendentemente, você pode usar o mesmo comando:

pdftohtml -s -xml -enc "UTF-8" <infile> <outfile>

No entanto, usei a versão padrão (Linux) de pdftohtml . Não sei se a variante que você está usando é totalmente retrocompatível.