Extrai HTML formatado e analisável do PDF

Question

Extrai HTML formatado e analisável do PDF

#1 resposta do (0 votos)

0

Como eu extrairia um HTML formatado e analisável de um arquivo PDF? (Eu só encontrei programas que geravam HTML que é difícil de analisar, e lutei com manipulação de equações). Especificamente, eu gostaria de analisar para analisar as questões em arquivos PDF assim: link . Existe uma maneira de fazer isso no Windows, Linux ou Python?

windows python pdf html linux

por user9811991 18.05.2018 / 18:59

1 resposta

Tags windows python pdf html linux

'hcitool con' não encontra nenhum dispositivo quando executado no contexto de um script do udev O Outlook convida a ser excluído [duplicado]

score 0 · Accepted Answer

Você não pode "extrair" HTML de um arquivo PDF.

O arquivo PDF consiste em comandos dizendo ao processador PDF onde colocar os glifos, as linhas são outras primitivas na página.

HTML, por outro lado, consiste em tags e texto, onde tags como <b> dizem ao renderizador HTML para usar uma fonte em negrito para o texto, etc. Ele não informa ao renderizador onde colocar os caracteres, mas geralmente o renderizador decide sobre o layout e as posições com base em outras informações.

Agora é possível adivinhar a formatação do arquivo PDF usando a posição dos glifos e usar esse palpite para gerar HTML que pode se assemelhar vagamente ao layout do arquivo PDF quando renderizado. Além disso, se as tabelas necessárias estiverem presentes (o que geralmente são, mas há surpresas), você também pode converter os glifos nos caracteres unicode originais.

Isso significa que qualquer conversão em HTML permanecerá adivinhando. Será aceitável até certo ponto, mas para formatos complicados ele falhará. Você sempre terá que corrigir manualmente o palpite.

Se você quiser uma lista de ferramentas que você poderia usar para isso: Isso é uma recomendação de software, e não no tópico sobre este stackexchange.