Você pode baixar a biblioteca XPDF do link para Linux e Windows. Em seguida, execute pdfimages -j input.pdf output
e você deve obter output-000.jpg
, output-001.jpg
etc. Além disso, verifique o link para saber mais opções de uso.
Eu tenho um arquivo PDF contendo mapas do prédio em que trabalho, aqui:
link
Os arquivos de origem originais foram perdidos e me pediram para extrair as imagens do mapa, de preferência sem o texto e os ícones que foram sobrepostos sobre eles. Isso provou ser irritantemente difícil.
Até agora, experimentei os seguintes programas GUI:
E também os seguintes programas de linha de comando:
Eu até tentei abrir o PDF manualmente em um editor de texto e extrair os objetos de fluxo colando-os em um novo arquivo e salvando-o com uma extensão .jpg, .png ou .bmp (cada um por sua vez). Considerando o pouco que sei sobre a estrutura interna dos arquivos PDF, não é surpresa que isso não funcionou.
Então ... existe alguma maneira de recuperar as imagens do mapa a partir dessa coisa sem ter o texto e os ícones?
Você pode baixar a biblioteca XPDF do link para Linux e Windows. Em seguida, execute pdfimages -j input.pdf output
e você deve obter output-000.jpg
, output-001.jpg
etc. Além disso, verifique o link para saber mais opções de uso.
Ok, depois de brincar com isso por 5 minutos, minha análise é que o PDF é ainda mais estranho do que eu pensava, e isso é dizer algo.
Não sabe qual é o seu orçamento, mas com o Acrobat Pro Extended 9, você pode usar:
Ferramentas, Edição avançada, Ferramenta de texto de retoque
-Select All
-Right click, Properties
-Text tab
-Select a standard font (e.g. Arial), close
-Hit Delete
Ferramentas, edição avançada, ferramenta de retoque de objetos
-Selecione o objeto (você pode obter a maioria, mas não todos, deles (por exemplo, os ícones dos computadores dos alunos não podem ser selecionados) e, em seguida, exclua
Veja como ficou a página 1 após uma limpeza rápida: link
Pegue o PDF que foi criado por Craig H e otimize-o um pouco, executando-o no Ghostscript. No Windows, a linha de comando é:
gswin32c.exe ^
-o p1test-gs-optimized.pdf ^
-sDEVICE=pdfwrite ^
-dPDFSETTIINGS=/prepress ^
p1test.pdf
No Linux / Unix / Mac OS X, faça:
gs \
-o p1test-gs-optimized.pdf \
-sDEVICE=pdfwrite \
-dPDFSETTIINGS=/prepress \
p1test.pdf
Isso reduzirá o tamanho do arquivo de 3.000 kByte para cerca de 60 kByte sem perder conteúdo. Então importá-lo para o Inkscape (ou InDesign, Illustrator, ...) deve ser muito mais rápido ....
... você pode tentar o Photoshop. Ele lê o PDF, e é "possível", originou-se no PS e, possivelmente, ainda tem as camadas ... mas é muito longo.
Em um ambiente Linux, usei pdfmod para extrair todas as imagens de uma só vez. Veja link ou, para usuários do Ubuntu, link
Para baixar e instalar no Ubuntu, basta digitar sudo apt-get install pdfmod
.
pdfmod
no painel ou no terminal da linha de comando) export n images
, com n o número apropriado). Você também pode acessar este comando passando o mouse sobre a seleção e ativando o menu local (clique com o botão direito do mouse para o destro). Espero que isso ajude.
Abra o documento na tela, aumente o zoom na imagem para torná-la o maior possível, mas tudo ainda estará visível. Pressione alt + prnt scrn (ou o equivalente em seu sistema operacional) e ele deve fazer uma captura de tela do programa. Agora abra a pintura ou o seu editor de imagem favorito (photoshop, gimp, etc) cole na foto e recorte tudo o que você não deseja.
Tags pdf extract pdf-reader xpdf