Extraindo imagens de fundo de um arquivo PDF?

8

Eu tenho um arquivo PDF contendo mapas do prédio em que trabalho, aqui:

link

Os arquivos de origem originais foram perdidos e me pediram para extrair as imagens do mapa, de preferência sem o texto e os ícones que foram sobrepostos sobre eles. Isso provou ser irritantemente difícil.

Até agora, experimentei os seguintes programas GUI:

  • Adobe Reader: permite selecionar o texto, mas não as imagens de plano de fundo
  • FoxIt PDF Viewer: permite selecionar o texto, mas não as imagens de plano de fundo
  • XPDF no Ubuntu 10.10: permite selecionar texto, mas não as imagens de fundo

E também os seguintes programas de linha de comando:

  • pdfimages: extrai os ícones indicando os banheiros bem, mas não as imagens de fundo
  • pdftohtml: mesmo que pdfimages, mais ele faz um documento HTML mal marcado
  • pdfextract: same as pdfimages
  • convert: imagens salvas com sucesso, mas com o texto gravado nelas

Eu até tentei abrir o PDF manualmente em um editor de texto e extrair os objetos de fluxo colando-os em um novo arquivo e salvando-o com uma extensão .jpg, .png ou .bmp (cada um por sua vez). Considerando o pouco que sei sobre a estrutura interna dos arquivos PDF, não é surpresa que isso não funcionou.

Então ... existe alguma maneira de recuperar as imagens do mapa a partir dessa coisa sem ter o texto e os ícones?

    
por Will Martin 27.05.2011 / 18:24

6 respostas

6

Você pode baixar a biblioteca XPDF do link para Linux e Windows. Em seguida, execute pdfimages -j input.pdf output e você deve obter output-000.jpg , output-001.jpg etc. Além disso, verifique o link para saber mais opções de uso.

    
por 27.05.2011 / 19:51
2

Ok, depois de brincar com isso por 5 minutos, minha análise é que o PDF é ainda mais estranho do que eu pensava, e isso é dizer algo.

Não sabe qual é o seu orçamento, mas com o Acrobat Pro Extended 9, você pode usar:

Ferramentas, Edição avançada, Ferramenta de texto de retoque

-Select All
-Right click, Properties
-Text tab
-Select a standard font (e.g. Arial), close
-Hit Delete

Ferramentas, edição avançada, ferramenta de retoque de objetos

-Selecione o objeto (você pode obter a maioria, mas não todos, deles (por exemplo, os ícones dos computadores dos alunos não podem ser selecionados) e, em seguida, exclua

Veja como ficou a página 1 após uma limpeza rápida: link

    
por 27.05.2011 / 19:43
1

Pegue o PDF que foi criado por Craig H e otimize-o um pouco, executando-o no Ghostscript. No Windows, a linha de comando é:

gswin32c.exe ^
   -o p1test-gs-optimized.pdf ^
   -sDEVICE=pdfwrite ^
   -dPDFSETTIINGS=/prepress ^
    p1test.pdf

No Linux / Unix / Mac OS X, faça:

gs \
   -o p1test-gs-optimized.pdf \
   -sDEVICE=pdfwrite \
   -dPDFSETTIINGS=/prepress \
    p1test.pdf

Isso reduzirá o tamanho do arquivo de 3.000 kByte para cerca de 60 kByte sem perder conteúdo. Então importá-lo para o Inkscape (ou InDesign, Illustrator, ...) deve ser muito mais rápido ....

    
por 29.05.2011 / 13:32
1

... você pode tentar o Photoshop. Ele lê o PDF, e é "possível", originou-se no PS e, possivelmente, ainda tem as camadas ... mas é muito longo.

    
por 03.03.2013 / 20:47
0

Em um ambiente Linux, usei pdfmod para extrair todas as imagens de uma só vez. Veja link ou, para usuários do Ubuntu, link

Para baixar e instalar no Ubuntu, basta digitar sudo apt-get install pdfmod .

  • Inicie a interface gráfica do pdfmod (digite pdfmod no painel ou no terminal da linha de comando)
  • Abra o documento PDF
  • Selecione todas as páginas (ou qualquer uma das quais você queira extrair as imagens)
  • O item de menu Editar apresentará a opção de extrair quantas imagens puderem ser extraídas dentro do intervalo selecionado ( export n images , com n o número apropriado). Você também pode acessar este comando passando o mouse sobre a seleção e ativando o menu local (clique com o botão direito do mouse para o destro).
  • Uma vez que você vá em frente com isso, uma nova janela será aberta, onde você selecionará o local para salvar as imagens.

Espero que isso ajude.

    
por 10.04.2016 / 19:09
-1

Abra o documento na tela, aumente o zoom na imagem para torná-la o maior possível, mas tudo ainda estará visível. Pressione alt + prnt scrn (ou o equivalente em seu sistema operacional) e ele deve fazer uma captura de tela do programa. Agora abra a pintura ou o seu editor de imagem favorito (photoshop, gimp, etc) cole na foto e recorte tudo o que você não deseja.

    
por 27.05.2011 / 19:26