Você pode simplesmente executar o seguinte comando para criar o pdf e o hocr ao mesmo tempo.
tesseract input.tif out pdf hocr
Estou criando um PDF com o formato de OCR por meio de tesseract
:
tesseract input.tif out pdf
Mas também preciso dos arquivos hocr
e txt
.
Versões recentes de tesseract
já resolveram isso , mas porque requer a compilação de leptonica
e tesseract
, Eu não estou totalmente confortável com isso.
Eu posso usar pdftotext
para extrair o arquivo de texto, mas não consigo encontrar uma maneira de extrair hocr
do PDF.
Tags pdf