Existe algum tipo de PDF para o conversor de texto?

20

Eu preciso de arquivos PDF para texto, para que eu possa pesquisá-los em massa a partir da linha de comando. Existe algum conversor para Ubuntu, OBSD ou distro similar?

Talvez um post relacionado, OCR com o ubuntu aqui .

    
por otto 11.12.2010 / 15:46

4 respostas

21

Você tem muitas opções!

pdftotext do poppler já foi mencionado.

Existe um programa do Haskell chamado pdf2line que funciona bem.

calibre ebook-convert programa de linha de comando (ou calibre próprio) é outra opção; Ele pode converter PDF para texto simples, ou outro formato de e-book (RTF, ePub), na minha opinião, gera resultados melhores que o pdftotext, embora seja consideravelmente mais lento.

ebook-convert file.pdf file.txt

O AbiWord pode converter qualquer formato que conheça da linha de comando, e pelo menos opcionalmente tem um plugin de importação de PDF:

abiword --to=txt file.pdf

No entanto, outra opção é podofotextextract da biblioteca de ferramentas PDF do podofo. Eu realmente não tentei .

Se você combinar as duas ferramentas do Ghostscript, pdf2ps e ps2ascii , terá ainda outra opção.

Eu posso pensar em mais alguns métodos, mas vou deixar por enquanto. ;)

    
por 11.12.2010 / 17:26
9

Você pode converter PDFs em texto na linha de comando com pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utils package).

Você pode usar o Recoll (Ubuntu: relembrar ; OpenBSD: sem porta, mas tem um para FreeBSD .) para pesquisar dentro de vários tipos de documentos de texto formatados, incluindo PDF. Há uma GUI e ela cria um índice automaticamente sob o capô. Usa pdftotext para converter PDF em texto.

O Acrobat Reader (pelo menos a versão 9 do Linux) tem um recurso limitado de pesquisa de vários arquivos (você pode pesquisar em todos os arquivos em um diretório).

    
por 11.12.2010 / 18:24
4

pdftotext é provavelmente o que você está procurando: link a menos que o texto que você quer extrair esteja realmente sob uma forma gráfica , o que não é comum em documentos pdf.

    
por 11.12.2010 / 15:57
-1

O gPDFText converte o conteúdo PDF do e-book em texto ASCII, reformatado para parágrafos longos, funciona para mim e tem uma interface gráfica.

    
por 07.08.2014 / 18:32