Para digitalizar livros que contenham apenas texto, imagens em preto e branco e bordas claras, o fluxo de trabalho que estou usando é:
scantailor
djvubind
para criar um pequeno arquivo de djvu (de 1 a 7 MB) com ocr background Isso funciona bem. No entanto, se você tiver revistas ou livros que contenham muitas cores nas imagens, elementos estruturais, planos de fundo ou imagens que se sobreponham às margens da página, o uso de scantailor (no modo misto) se tornará muito difícil, e você precisará prosseguir manualmente a cada página.
Então, o que seria um bom fluxo de trabalho no Linux para digitalizar tais fontes e obter um pequeno arquivo djvu ou pdf com o fundo ocr?