pdfbeads não funciona para este arquivo, mas o hocr2pdf tem alguma idéia?

1

Parece que não consigo fazer o pdfbeads produzir arquivos OCR com o HOCR, agora com o programa hocr2pd ele funciona mas não com o pdfbeads, o que é tão especial nesse arquivo? O HOCR foi produzido com tesserato:

tesseract -psm 1 -l eng 00000001.tif out hocr

Isso é o que isso significa. cria o PDF, mas não é pesquisável:

pdfbeads *tif > new.pdf
/usr/lib/ruby/1.9.1/rubygems/custom_require.rb:36:in 'require': iconv will be deprecated in the future, use String#encode instead.
[DEPRECATION] requiring "RMagick" is deprecated. Use "rmagick" instead
Prepared data for processing 00000001.tif
/var/lib/gems/1.9.1/gems/pdfbeads-1.1.1/lib/pdfbeads/pdfpage.rb:445: warning: 
JBIG2 compression complete. pages:1 symbols:401 log2:9
Processed 00000001.tif

no entanto este pdfbeads funciona com quaisquer outros arquivos que eu criei como tif's

Arquivos de exemplo tif + hocr estão aqui:

link

    
por SantaClaus 11.11.2016 / 09:46

0 respostas