Sugiro que você encontre uma ferramenta de recorte de linha de comando, por exemplo link no ubuntu
Você pode escrever um pequeno script para cortar cada fatura em pequenas seções que contenham o texto desejado e executá-las em qualquer programa de OCR.
Claro, se você está escrevendo um sistema de gerenciamento de documentos, tudo isso pode ser feito usando bibliotecas comuns para a sua linguagem de programação escolhida (e esta questão provavelmente deveria estar no stackoverflow)