Fluxo de trabalho padrão para digitalizar revistas ou livros usando o OCR, minimizando o tamanho do arquivo?

3

Para digitalizar livros que contenham apenas texto, imagens em preto e branco e bordas claras, o fluxo de trabalho que estou usando é:

  • digitalize a fonte usando uma câmera ou apenas um scanner
  • use scantailor
  • finalmente use djvubind para criar um pequeno arquivo de djvu (de 1 a 7 MB) com ocr background

Isso funciona bem. No entanto, se você tiver revistas ou livros que contenham muitas cores nas imagens, elementos estruturais, planos de fundo ou imagens que se sobreponham às margens da página, o uso de scantailor (no modo misto) se tornará muito difícil, e você precisará prosseguir manualmente a cada página.

Então, o que seria um bom fluxo de trabalho no Linux para digitalizar tais fontes e obter um pequeno arquivo djvu ou pdf com o fundo ocr?

    
por student 07.06.2014 / 12:01

0 respostas