Eu tenho um arquivo em pdf que consiste em um conjunto de imagens digitalizadas de um livro. É parte de uma série que está disponível aqui . A maioria deles funciona bem. A URL para o arquivo problemático é aqui .
O arquivo não abre e várias ferramentas de linha de comando não conseguem fazer nada com ele. Eu também tentei uma série de serviços de reparo pdf online sem sucesso.
Eu preciso extrair apenas as imagens. Normalmente faço isso com pdfimages. Não estou interessado em reparar o arquivo como tal, a menos que seja essencial para obter as imagens. Além disso, não sei nada sobre o código pdf!
Aqui estão algumas mensagens de erro de amostra:
Usando pdftocairo -pdf mn1.pdf mn1_repaired.pdf
e pdfimages mn1.pdf
recebo
Syntax Error: Invalid XRef entry
Syntax Error: Top-level pages object is wrong type (null)
Wrong page range given: the first page (1) can not be after the last page (0).
Usando pdftk mn1.pdf
, obtenho:
Error: Unexpected Exception in open_reader()
Unhandled Java Exception in main():
java.lang.NullPointerException
at gnu.gcj.runtime.NameFinder.lookup(libgcj.so.15)
at java.lang.Throwable.getStackTrace(libgcj.so.15)
at java.lang.Throwable.stackTraceString(libgcj.so.15)
at java.lang.Throwable.printStackTrace(libgcj.so.15)
at java.lang.Throwable.printStackTrace(libgcj.so.15)
Eu apreciaria se alguém conseguisse encontrar uma maneira de tirar as imagens desse arquivo. Soluções para Linux são preferidas.