O Tesseract tem um desempenho muito melhor quando é treinado: link
O que encontramos em nosso trabalho em mais de 50 milhões de PDFs para analisar, a seguinte estratégia:
(1) A partir de arquivos do tipo PNG, tente identificar a fonte que está sendo usada. (2) Treinar o Tesseract com um formulário TTF da fonte (em vez de um bitmap da imagem PNG) (3) Execute o tesseract com este novo treinamento.
Estamos automatizando o item 2 acima, mas existem ferramentas on-line para identificar uma fonte. Sugiro: link
link também pode ajudar.