Converter pdf para texto ignorando estrutura

4

Estou procurando uma ferramenta que possa converter pdf em lote em texto

Eu não quero que a ferramenta tente manter qualquer tipo de estrutura, apenas imprima linha por linha com espaços entre as palavras.

Todas as ferramentas que eu encontrei até agora pdftotext, pdf2text etc ... todas tentam separar as estruturas e acabam fazendo uma bagunça. O documento original foi mal estruturado e depois de varrer muitas estruturas estão misturadas, então eu quero obter o mais consistente de todos os meus pdfs e a melhor maneira atualmente parece extrair cada palavra linha por linha.

Meu objetivo é extrair o texto que contém pares de valores-chave e compará-los aos dados em um banco de dados.

    
por rogermushroom 06.05.2011 / 18:07

1 resposta

2

Se você quiser converter em lote arquivos PDF em texto, dê uma olhada no produto da minha empresa, Debenu PDF Tools Pro .

Ele tem três opções diferentes para converter arquivos PDF em texto, o que deve fornecer a saída que você está procurando. A primeira opção mostrada na imagem abaixo apenas extrairá o texto linha por linha, à medida que o encontrar no PDF, sem formatá-lo. A segunda opção tenta preservar o layout original.

É uma ferramenta projetada para processamento em lote. Há uma avaliação de 14 dias totalmente funcional e, em seguida, ela reverte para o modo Lite, que não tem recursos limitados, mas tem um limite no número de arquivos que podem ser processados por dia.

    
por 18.06.2013 / 06:50