Mesclar e exportar texto com OCR para e de um arquivo pdf

1
  1. Dado um arquivo pdf e um arquivo html no formato hocr para o texto oculto, podemos mesclar o texto oculto no arquivo pdf, para que o novo arquivo pdf possa ser pesquisado por texto?

    Por exemplo, eu tenho um pdf digitalizando sem texto pesquisável, cerca de 5MB. Eu convertê-lo em um arquivo djvu e, em seguida, dividi-lo em arquivos tiff de página única e, em seguida, mesclar alguns arquivos hocr para as páginas com os arquivos tiff usando pdfbeads . Agora meu novo arquivo pdf tem 23MB. Então eu gostaria de saber se eu posso mesclar os arquivos hocr diretamente no arquivo pdf original, para obter um tamanho muito menor do que 23MB?

  2. Por outro lado, dado um arquivo pdf com texto OCR, podemos exportar OCRed texto em um arquivo html no formato hocr?

    Também podemos remover o texto OCR do arquivo pdf, sem impressão em arquivo pdf?

  3. Se não estiver limitado ao formato hocr, existem outros formatos que programas para fazer a fusão e / ou extração acima?

Obrigado.

    
por Tim 26.11.2014 / 19:47

1 resposta

1

  1. Provavelmente sim - existe a ferramenta hocr2pdf (da ExactImage) disponível, mas ainda não tentei confirmar

Algumas notas: se você quiser apenas fazer um PDF pesquisável, pode usar programas GUI mais simples, como o gscan2pdf e outros, que permitem a entrada de PDF. Você também pode criar PDF pesquisável com versões recentes do tesseract.

  1. No arquivo html você pode exportar com o pdf2html do xpdf toolkit, mas eu acho que você não ficará muito feliz com os resultados, e eles não estarão no formato hocr.

Para sua última pergunta, eu não sei, mas você certamente pode remover mais facilmente se o texto for OCR. Apenas FYI, usando djvudigital para fazer HQ djvu de pdf, você pode facilmente remover o texto com djvused de djvulibre.

Esqueci de mencionar o LibreDraw, que é excelente para editar arquivos PDF. Eu não tenho aqui OCRed PDF, então não sei o que vai dar, mas vale a pena tentar.

    
por 27.11.2014 / 17:53

Tags