Convertendo portfólios PDF para texto simples (pdftotext?)

1

Estou tentando converter um grande número de PDFs (~ 15000) em texto sem formatação usando o pdftotext. Isso está funcionando muito bem, exceto por alguns dos PDFs (~ 600) que, eu acho, são "portfólios PDF".

Quando executo esses PDFs por meio do pdftotext, ele apenas exibe:

For the best experience, open this PDF portfolio in Acrobat 9 or Adobe Reader 9, or later. Get Adobe Reader Now!

Se eu abrir esses PDFs no Adobe Reader, eles se parecerão com dois ou mais PDFs em um único arquivo.

Alguém já encontrou esse problema antes? Existe alguma ferramenta que eu possa usar para converter esses PDFs automaticamente? (Diretamente para o texto ou pelo menos para PDFs comuns que o pdftotext possa entender.)

    
por Swiftheart 07.11.2013 / 03:07

1 resposta

0

Você pode usar o Xpdf .

Tem um utilitário pdfdetach , que pode extrair os arquivos de um portfólio Pdf.

pdfdetach -saveall your_pdf_portfolio.pdf

Eu não sei qual pdftotext você está usando, mas o Xpdf também tem seu próprio pdftotext .

    
por 07.11.2013 / 09:46

Tags