Como faço para produzir um pdf em sanduíche de várias páginas com o hocr2pdf?

Question

Como faço para produzir um pdf em sanduíche de várias páginas com o hocr2pdf?

Navegue suas respostas

#1 resposta do To Do (2 votos)

6

Eu usei o tesseract para produzir o html especial para usar com hocr2pdf a partir de uma tif de página múltipla.

Eu tentei usar o hoc2pdf para produzir um "pdf em sanduíche" (imagem + camada de texto oculto).

O Hocr2pdf produz um pdf de uma página com todas as páginas sobrepostas.

Existe uma maneira de resolver este problema ou uma solução alternativa?

pdf ocr

por To Do 22.03.2013 / 15:50

1 resposta

Tags pdf ocr

Pedindo que todos os processos restantes terminem ... falhem “Problema no programa do sistema detectado” com apport-gpu-error-intel.py

score 2 · Accepted Answer

Encontrei uma solução para esse problema. O Hocr2pdf tem problemas com a produção de pdfs de várias páginas, então produzi tifs de página única, rodei o tesseract-ocr, executei hocr2pdf e combinei os resultados com o seguinte script:

for f in ./*.tif; do
   tesseract "$f" "$f" -l fra hocr
   hocr2pdf -i "$f" -s -o "$f.pdf" < "$f.html"
done
pdftk *.tif.pdf cat output "output.pdf" && rm *.tif.pdf && rm *.tif.html