Existe um conversor de pdf para texto melhor que o pdftotext?

53

Estou usando o pdftotext (parte do poppler-utils) para converter documentos PDF em texto. Funciona, na maior parte, mas uma coisa que eu gostaria de fazer era inserir linhas em branco entre parágrafos separados, em vez de misturá-los juntos.

Existe uma maneira de fazer o pdftotext fazer isso? E se não, existe outro utilitário pdf para texto que pode fazer isso?

    
por dan 06.07.2011 / 18:54

5 respostas

22

Você pode experimentar o ebook-convert do Caliber.

Se qualquer coisa, eu diria que erra na outra direção: muitas quebras de linha.

Outra coisa que eu definitivamente considero é converter para HTML usando o pdfreflow e depois converter o HTML para TXT.

    
por frabjous 09.08.2011 / 06:52
101

Se você estiver usando pdftotext , poderá usar o sinal -layout para preservar o layout do texto nas páginas em seu arquivo pdf de entrada:

pdftotext -layout input.pdf output.txt
    
por Noah 13.06.2013 / 17:25
11

Como fã de código aberto (e automação), eu odeio dizer isso, mas os melhores resultados que obtive (em um PDF grande e complexo) foram abri-lo no Adobe Reader e, em seguida, escolher Arquivo | Salvar como texto .

(Eu estou pré-processando para experimentos de análise de texto, não como um leitor, mas acho que minha primeira e segunda escolha seria a mesma.)

Eu tenho comparado a saída lado-a-lado. Minha segunda opção é o ebook-convert.

Adobe : à esquerda no FF para quebras de página, à esquerda nos números de página, não converteu títulos / parágrafos em linhas únicas, mas fixou hífens. Lixo que estava oculto no PDF não obteve saída. Corretamente obteve as grandes capitais no início das seções, por exemplo "O", não "o" ou mesmo "o".

ebook-convert : Deixados nos números das páginas e algum lixo oculto no cabeçalho / rodapé (mas sem FFs). Converte a maioria dos parágrafos para linhas únicas. Os que faltam são em espaço duplo! As balas nem sempre se alinham com o texto. Corretamente tem "The" no início do capítulo.

pdftotext (sem --layout) : Não é ruim, os marcadores se alinham, mas o ruído de cabeçalho / rodapé. FFs estão lá. Hífens removidos. Pior para letras maiúsculas no início do capítulo: "T \ n \ nhe".

pdftotext (com --layout) : Similar, mas mais travessões. "T ele" para o começo do capítulo.

pdftohtml > > pdfreflow > > htmltotext : removeu os números de página, mas ainda assim, o lixo no cabeçalho / rodapé. "T ele" para o começo do capítulo. Hífens removidos. (Ele usa várias linhas por parágrafo, mas elas não são as mesmas que as outras versões!)

    
por Darren Cook 11.09.2013 / 04:58
5

Se você tiver uma conta do Google, poderá usar o Google Docs para fazer o upload do PDF e transformá-lo em texto editável.

    
por xangua 06.07.2011 / 20:13
1

Eu também tentei pypdf e comparei com pdftotext em dois documentos. Ele tinha mais quebras de linha e dividia alguns nomes de seção (REFERENCES era E R E N C E S).

pdf2txt gerou lixo completo.

Costumo usar o pdfBox (java) se o pdftotext estragar a saída. Você pode tentar.

    
por Max 04.10.2013 / 20:22