detecta se o arquivo PDF é feito de imagens

Question

detecta se o arquivo PDF é feito de imagens

#1 resposta do (2 votos)
#2 resposta do (1 votos)

5

Estou tentando pré-processar uma quantidade enorme de arquivos PDF, muitos deles não são textos, mas imagens, para movê-los para um local adequado ao processamento de OCR.

O problema é que eu tentei detectar se o PDF é baseado em imagem antes do OCR, mas sem sucesso até agora. Usando " pdffonts filename " é suposto a abordagem correta, mas somente PDFs com imagem tem fontes também!

bash pdf shell-script

por jomaweb 31.03.2016 / 16:45

2 respostas

2

Você pode instalar o pdftotext e ver se ele gerou mais do que nenhuma string de saída:

for file_name in *.pdf; do
   if [ $(pdftotext "$file_name")"x" == "x" ] ; then mv "$file_name" /to/ocr ; fi
done

Sob o Debian e derivados, esse utilitário está no pacote poppler-utils .

por 31.03.2016 / 16:55

Tags bash pdf shell-script

Tmux e cores sombreadas no Terminal.app no MacOS Parâmetro de aspas simples com script Bash com valor de globbing

score 1 · Accepted Answer

pdfimages -list filename.pdf

Deve fazer o truque. Isso fornece uma lista de imagens contidas no arquivo PDF.