Enumerando Parágrafos em Arquivos PDF

1

Existe um programa ou serviço disponível que leva arquivos PDF e enumera automaticamente os parágrafos? Fiz algumas pesquisas simples no Google e não encontrei nada prontamente disponível.

    
por TestBang 21.06.2014 / 07:37

1 resposta

1

Por "enumerar parágrafos", acho que você quer dizer produzir um novo arquivo PDF com números inseridos antes de cada parágrafo eo texto reformatado para acomodar este e quaisquer outros objetos (por exemplo, imagens) movimentados conforme necessário e o documento repaginado.

O PDF foi concebido como uma forma de documento no formato final, por isso não facilita realmente a manipulação do seu conteúdo.

Em particular, você não pode garantir que a organização interna de um PDF inclua qualquer conceito de parágrafos ou mesmo de palavras. Você não pode garantir que os caracteres sejam codificados em qualquer codificação normal - o que pode dificultar a distinção entre pontuação e letras.

Existem bibliotecas de software para ler arquivos PDF para que você possa, em princípio, tentar escrever um programa desse tipo. Isso pode ser feito para trabalhar com PDFs produzidos por um fluxo de trabalho específico usando produtos específicos. Em geral, pode funcionar menos bem do que converter o PDF em uma imagem e usar o OCR na imagem.

Esse tipo de pergunta ("Existe um programa que ...") pode ser mais adequado para Recomendações de software - mas eu ficaria surpreso se existisse algo que você pudesse usar imediatamente em PDFs aleatórios.

    
por 21.06.2014 / 12:35

Tags