detecta se o arquivo PDF é feito de imagens

5

Estou tentando pré-processar uma quantidade enorme de arquivos PDF, muitos deles não são textos, mas imagens, para movê-los para um local adequado ao processamento de OCR.

O problema é que eu tentei detectar se o PDF é baseado em imagem antes do OCR, mas sem sucesso até agora. Usando " pdffonts filename " é suposto a abordagem correta, mas somente PDFs com imagem tem fontes também!

    
por jomaweb 31.03.2016 / 18:45

2 respostas

1
pdfimages -list filename.pdf

Deve fazer o truque. Isso fornece uma lista de imagens contidas no arquivo PDF.

    
por 31.03.2016 / 18:57
2

Você pode instalar o pdftotext e ver se ele gerou mais do que nenhuma string de saída:

for file_name in *.pdf; do
   if [ $(pdftotext "$file_name")"x" == "x" ] ; then mv "$file_name" /to/ocr ; fi
done

Sob o Debian e derivados, esse utilitário está no pacote poppler-utils .

    
por 31.03.2016 / 18:55