Extraindo imagens de fundo de um arquivo PDF?

Question

Extraindo imagens de fundo de um arquivo PDF?

#1 resposta do (6 votos)
#2 resposta do (2 votos)
#3 resposta do (1 votos)
#4 resposta do (1 votos)
#5 resposta do (0 votos)
#6 resposta do (-1 votos)

8

Eu tenho um arquivo PDF contendo mapas do prédio em que trabalho, aqui:

link

Os arquivos de origem originais foram perdidos e me pediram para extrair as imagens do mapa, de preferência sem o texto e os ícones que foram sobrepostos sobre eles. Isso provou ser irritantemente difícil.

Até agora, experimentei os seguintes programas GUI:

Adobe Reader: permite selecionar o texto, mas não as imagens de plano de fundo
FoxIt PDF Viewer: permite selecionar o texto, mas não as imagens de plano de fundo
XPDF no Ubuntu 10.10: permite selecionar texto, mas não as imagens de fundo

E também os seguintes programas de linha de comando:

pdfimages: extrai os ícones indicando os banheiros bem, mas não as imagens de fundo
pdftohtml: mesmo que pdfimages, mais ele faz um documento HTML mal marcado
pdfextract: same as pdfimages
convert: imagens salvas com sucesso, mas com o texto gravado nelas

Eu até tentei abrir o PDF manualmente em um editor de texto e extrair os objetos de fluxo colando-os em um novo arquivo e salvando-o com uma extensão .jpg, .png ou .bmp (cada um por sua vez). Considerando o pouco que sei sobre a estrutura interna dos arquivos PDF, não é surpresa que isso não funcionou.

Então ... existe alguma maneira de recuperar as imagens do mapa a partir dessa coisa sem ter o texto e os ícones?

pdf extract pdf-reader xpdf

por Will Martin 27.05.2011 / 16:24

6 respostas

2

Ok, depois de brincar com isso por 5 minutos, minha análise é que o PDF é ainda mais estranho do que eu pensava, e isso é dizer algo.

Não sabe qual é o seu orçamento, mas com o Acrobat Pro Extended 9, você pode usar:

Ferramentas, Edição avançada, Ferramenta de texto de retoque

-Select All
-Right click, Properties
-Text tab
-Select a standard font (e.g. Arial), close
-Hit Delete

Ferramentas, edição avançada, ferramenta de retoque de objetos

-Selecione o objeto (você pode obter a maioria, mas não todos, deles (por exemplo, os ícones dos computadores dos alunos não podem ser selecionados) e, em seguida, exclua

Veja como ficou a página 1 após uma limpeza rápida: link

por 27.05.2011 / 17:43

1

Pegue o PDF que foi criado por Craig H e otimize-o um pouco, executando-o no Ghostscript. No Windows, a linha de comando é:

gswin32c.exe ^
   -o p1test-gs-optimized.pdf ^
   -sDEVICE=pdfwrite ^
   -dPDFSETTIINGS=/prepress ^
    p1test.pdf

No Linux / Unix / Mac OS X, faça:

gs \
   -o p1test-gs-optimized.pdf \
   -sDEVICE=pdfwrite \
   -dPDFSETTIINGS=/prepress \
    p1test.pdf

Isso reduzirá o tamanho do arquivo de 3.000 kByte para cerca de 60 kByte sem perder conteúdo. Então importá-lo para o Inkscape (ou InDesign, Illustrator, ...) deve ser muito mais rápido ....

por 29.05.2011 / 11:32

1

... você pode tentar o Photoshop. Ele lê o PDF, e é "possível", originou-se no PS e, possivelmente, ainda tem as camadas ... mas é muito longo.

por 03.03.2013 / 19:47

0

Em um ambiente Linux, usei pdfmod para extrair todas as imagens de uma só vez. Veja link ou, para usuários do Ubuntu, link

Para baixar e instalar no Ubuntu, basta digitar sudo apt-get install pdfmod .

Inicie a interface gráfica do pdfmod (digite pdfmod no painel ou no terminal da linha de comando)
Abra o documento PDF
Selecione todas as páginas (ou qualquer uma das quais você queira extrair as imagens)
O item de menu Editar apresentará a opção de extrair quantas imagens puderem ser extraídas dentro do intervalo selecionado ( export n images , com n o número apropriado). Você também pode acessar este comando passando o mouse sobre a seleção e ativando o menu local (clique com o botão direito do mouse para o destro).
Uma vez que você vá em frente com isso, uma nova janela será aberta, onde você selecionará o local para salvar as imagens.

Espero que isso ajude.

por 10.04.2016 / 17:09

-1

Abra o documento na tela, aumente o zoom na imagem para torná-la o maior possível, mas tudo ainda estará visível. Pressione alt + prnt scrn (ou o equivalente em seu sistema operacional) e ele deve fazer uma captura de tela do programa. Agora abra a pintura ou o seu editor de imagem favorito (photoshop, gimp, etc) cole na foto e recorte tudo o que você não deseja.

por 27.05.2011 / 17:26

Tags pdf extract pdf-reader xpdf

O computador imprime páginas em branco antes e depois do conteúdo Bloquear determinado script no ChromeTools / DevTools do Chrome [duplicado]

score 6 · Accepted Answer

Você pode baixar a biblioteca XPDF do link para Linux e Windows. Em seguida, execute pdfimages -j input.pdf output e você deve obter output-000.jpg , output-001.jpg etc. Além disso, verifique o link para saber mais opções de uso.