Parece que não consigo fazer o pdfbeads produzir arquivos OCR com o HOCR, agora com o programa hocr2pd ele funciona mas não com o pdfbeads, o que é tão especial nesse arquivo? O HOCR foi produzido com tesserato:
tesseract -psm 1 -l eng 00000001.tif out hocr
Isso é o que isso significa. cria o PDF, mas não é pesquisável:
pdfbeads *tif > new.pdf
/usr/lib/ruby/1.9.1/rubygems/custom_require.rb:36:in 'require': iconv will be deprecated in the future, use String#encode instead.
[DEPRECATION] requiring "RMagick" is deprecated. Use "rmagick" instead
Prepared data for processing 00000001.tif
/var/lib/gems/1.9.1/gems/pdfbeads-1.1.1/lib/pdfbeads/pdfpage.rb:445: warning:
JBIG2 compression complete. pages:1 symbols:401 log2:9
Processed 00000001.tif
no entanto este pdfbeads funciona com quaisquer outros arquivos que eu criei como tif's
Arquivos de exemplo tif + hocr estão aqui: