Como separar imagens do texto em um documento PDF digitalizado

3

Os arquivos PDF comuns consistem em elementos vetoriais, como texto e gráficos vetoriais, além de outros dados incorporados, como arquivos de imagem. Extrair este último é muito fácil com utilitários como pdfimages (como descrito em neste documento & A ).

Por outro lado, documentos PDF digitalizados são compilações de páginas digitalizadas. Cada página é uma imagem de bitmap, possivelmente sobreposta com uma camada de texto pesquisável produzida pelo OCR. Como resultado, a execução de pdfimages em um documento PDF digitalizado simplesmente extrairá as páginas digitalizadas.

O que estou procurando é um aplicativo ou utilitário de linha de comando que possa distinguir entre imagens e texto em um documento PDF digitalizado e extrair o primeiro.

Existe algo assim?

    
por user3446207 11.09.2014 / 10:14

1 resposta

2

Use pdfimages uma ferramenta de extração de imagens em PDF

Uso: pdfimages [options] <PDF-file> <image-root>

Exemplo: salvar imagens no formato JPEG

  

pdfimages -j in.pdf / tmp / out

PS: alguém, por favor, marque isso como duplicado: Extraindo imagens incorporadas de um PDF [creadits vai para pl1nk : link ]

    
por danielpopa 11.09.2014 / 10:27