pdfimages -list filename.pdf
Deve fazer o truque. Isso fornece uma lista de imagens contidas no arquivo PDF.
Estou tentando pré-processar uma quantidade enorme de arquivos PDF, muitos deles não são textos, mas imagens, para movê-los para um local adequado ao processamento de OCR.
O problema é que eu tentei detectar se o PDF é baseado em imagem antes do OCR, mas sem sucesso até agora.
Usando " pdffonts filename
" é suposto a abordagem correta, mas somente PDFs com imagem tem fontes também!
Você pode instalar o pdftotext e ver se ele gerou mais do que nenhuma string de saída:
for file_name in *.pdf; do
if [ $(pdftotext "$file_name")"x" == "x" ] ; then mv "$file_name" /to/ocr ; fi
done
Sob o Debian e derivados, esse utilitário está no pacote poppler-utils
.
Tags bash pdf shell-script