Extraia imagens do pdf danificado

1

Eu tenho um arquivo em pdf que consiste em um conjunto de imagens digitalizadas de um livro. É parte de uma série que está disponível aqui . A maioria deles funciona bem. A URL para o arquivo problemático é aqui .

O arquivo não abre e várias ferramentas de linha de comando não conseguem fazer nada com ele. Eu também tentei uma série de serviços de reparo pdf online sem sucesso.

Eu preciso extrair apenas as imagens. Normalmente faço isso com pdfimages. Não estou interessado em reparar o arquivo como tal, a menos que seja essencial para obter as imagens. Além disso, não sei nada sobre o código pdf!

Aqui estão algumas mensagens de erro de amostra:

Usando pdftocairo -pdf mn1.pdf mn1_repaired.pdf e pdfimages mn1.pdf recebo

Syntax Error: Invalid XRef entry
Syntax Error: Top-level pages object is wrong type (null)
Wrong page range given: the first page (1) can not be after the last page (0).

Usando pdftk mn1.pdf , obtenho:

Error: Unexpected Exception in open_reader()
Unhandled Java Exception in main():
java.lang.NullPointerException
   at gnu.gcj.runtime.NameFinder.lookup(libgcj.so.15)
   at java.lang.Throwable.getStackTrace(libgcj.so.15)
   at java.lang.Throwable.stackTraceString(libgcj.so.15)
   at java.lang.Throwable.printStackTrace(libgcj.so.15)
   at java.lang.Throwable.printStackTrace(libgcj.so.15)

Eu apreciaria se alguém conseguisse encontrar uma maneira de tirar as imagens desse arquivo. Soluções para Linux são preferidas.

    
por user2360490 12.12.2014 / 02:16

1 resposta

0

Enviei o PDF para este site e parece que ele conseguiu recuperar o arquivo . No entanto, ele colocou uma marca d'água e deseja pagamento se você precisar de uma versão sem a marca d'água. Todo o texto ainda é perfeitamente legível, mesmo com a marca d'água.

Aqui está o arquivo recuperado: link

    
por 12.12.2014 / 03:13

Tags