Como faço para produzir um pdf em sanduíche de várias páginas com o hocr2pdf?

6

Eu usei o tesseract para produzir o html especial para usar com hocr2pdf a partir de uma tif de página múltipla.

Eu tentei usar o hoc2pdf para produzir um "pdf em sanduíche" (imagem + camada de texto oculto).

O Hocr2pdf produz um pdf de uma página com todas as páginas sobrepostas.

Existe uma maneira de resolver este problema ou uma solução alternativa?

    
por To Do 22.03.2013 / 16:50

1 resposta

2

Encontrei uma solução para esse problema. O Hocr2pdf tem problemas com a produção de pdfs de várias páginas, então produzi tifs de página única, rodei o tesseract-ocr, executei hocr2pdf e combinei os resultados com o seguinte script:

for f in ./*.tif; do
   tesseract "$f" "$f" -l fra hocr
   hocr2pdf -i "$f" -s -o "$f.pdf" < "$f.html"
done
pdftk *.tif.pdf cat output "output.pdf" && rm *.tif.pdf && rm *.tif.html
    
por To Do 27.03.2013 / 22:04

Tags