- Provavelmente sim - existe a ferramenta hocr2pdf (da ExactImage) disponível, mas ainda não tentei confirmar
Algumas notas: se você quiser apenas fazer um PDF pesquisável, pode usar programas GUI mais simples, como o gscan2pdf e outros, que permitem a entrada de PDF. Você também pode criar PDF pesquisável com versões recentes do tesseract.
- No arquivo html você pode exportar com o pdf2html do xpdf toolkit, mas eu acho que você não ficará muito feliz com os resultados, e eles não estarão no formato hocr.
Para sua última pergunta, eu não sei, mas você certamente pode remover mais facilmente se o texto for OCR. Apenas FYI, usando djvudigital para fazer HQ djvu de pdf, você pode facilmente remover o texto com djvused de djvulibre.
Esqueci de mencionar o LibreDraw, que é excelente para editar arquivos PDF. Eu não tenho aqui OCRed PDF, então não sei o que vai dar, mas vale a pena tentar.