Uma solução possível é solicitar a saída de PDF diretamente do tesseract. Isso parece fornecer melhores resultados para mim do que passar pelo hocr2pdf.
tesseract "$page" "$base" -l eng pdf
ou
tesseract "$page" "$base" -l eng -c tessedit_create_pdf=1