Como extrair o arquivo hocr do PDF?

Question

Como extrair o arquivo hocr do PDF?

#1 resposta do (2 votos)

4

Estou criando um PDF com o formato de OCR por meio de tesseract :

tesseract input.tif out pdf

Mas também preciso dos arquivos hocr e txt . Versões recentes de tesseract já resolveram isso , mas porque requer a compilação de leptonica e tesseract , Eu não estou totalmente confortável com isso.

Eu posso usar pdftotext para extrair o arquivo de texto, mas não consigo encontrar uma maneira de extrair hocr do PDF.

pdf

por Rystraum 19.04.2016 / 11:36

1 resposta

Tags pdf

exibe o conteúdo do arquivo desde o início até um padrão de várias linhas Obtendo um erro ao usar xrandr --setprovideroffloadsink no Manjaro após a atualização

score 2 · Accepted Answer

Você pode simplesmente executar o seguinte comando para criar o pdf e o hocr ao mesmo tempo.

tesseract input.tif out pdf hocr