Como extrair o arquivo hocr do PDF?

4

Estou criando um PDF com o formato de OCR por meio de tesseract :

tesseract input.tif out pdf

Mas também preciso dos arquivos hocr e txt . Versões recentes de tesseract já resolveram isso , mas porque requer a compilação de leptonica e tesseract , Eu não estou totalmente confortável com isso.

Eu posso usar pdftotext para extrair o arquivo de texto, mas não consigo encontrar uma maneira de extrair hocr do PDF.

    
por Rystraum 19.04.2016 / 13:36

1 resposta

2

Você pode simplesmente executar o seguinte comando para criar o pdf e o hocr ao mesmo tempo.

tesseract input.tif out pdf hocr 
    
por 17.03.2017 / 09:48

Tags