Convertendo PDFs em HTML com pdf2htmlEX: A saída pode ser usada para análise de html?

0

Estou implementando algum algoritmo de análise e para isso preciso converter PDFs em html e escolhi pdf2htmlEX para essa finalidade. Eu quero analisar os dados com base em cabeçalhos e parágrafos.

A biblioteca pdf2HTMLEx funciona muito bem em termos de UX, mas o texto HTML produzido está cheio de <span> e <div> tags e pode ser difícil de entender, pois não é muito legível nem inclui tags de título etc.

Assim:

1. The model of perfect competition is more useful for analy <span class="_ _0"> <span>zing situations in which firms <span class="_ _1"></span> </div><div class="t m0 x5 h2 y35 ff2 fs1 fc0 sc0 ls1 ws0">a. engage in price wars in order to secure a position in the market  </div>

Minhas perguntas são:

  1. Como posso separar cada título junto com seus parágrafos?
  2. Existe alguma maneira de fazer isso usando pdf2htmlEX?
por Falcon 24.02.2017 / 09:03

1 resposta

0

Eu tentei o mesmo para analisar extratos bancários. O que funcionou melhor para mim não foi converter para HTML, mas converter a saída para XML.

Surpreendentemente, você pode usar o mesmo comando:

pdftohtml -s -xml -enc "UTF-8" <infile> <outfile>

No entanto, usei a versão padrão (Linux) de pdftohtml . Não sei se a variante que você está usando é totalmente retrocompatível.

    
por 25.02.2017 / 05:51

Tags