Como eu evito que o hocr2pdf use uma fonte grande do arquivo .hocr gerado pelo tesseract?

3

O Tesseract agora cria um arquivo .hocr em vez de um arquivo .html para a saída ocr, mas isso não é exatamente o que está em questão aqui. Quando o hocr2pdf usa essa saída, ele usa um tamanho de texto grande com caixas delimitadoras pequenas desde a atualização. A maior parte do texto nem aparece no pdf resultante e a pequena quantidade de texto que aparece é ilegível e não selecionável.

Estou usando um script que passa por cada arquivo .tif no diretório e faz o ocr em cada um. Eu uso um loop for assim:

for page in "$dir"/*page*.tif
do
    base="${page%.tif}"
    tesseract "$page" "$base" -l eng hocr
    hocr2pdf -i "$page" -o "$base.pdf" < "$base.hocr"
done

Eu também tentei especificar a resolução com a opção -r 400 para hocr2pdf, mas isso não resultou em nenhuma alteração. Eu só posso supor que a versão atual do tesseract não está produzindo saída apropriada para o hocr2pdf trabalhar.

O Tesseract é a minha única opção de ocr porque lida muito bem com o islandês e o nórdico antigo, por isso não é provável que se mude para outro instrumento.

    
por user299889 02.07.2014 / 21:23

1 resposta

0

Uma solução possível é solicitar a saída de PDF diretamente do tesseract. Isso parece fornecer melhores resultados para mim do que passar pelo hocr2pdf.

tesseract "$page" "$base" -l eng pdf

ou

tesseract "$page" "$base" -l eng -c tessedit_create_pdf=1
    
por vargaslo 19.01.2017 / 01:50

Tags