Primeiro você deve ajustar essas imagens. Eu recomendo uma ferramenta em lote como XnViewMP que é grátis e multiplataforma.
Tem um explorador de arquivos. Selecione todas as suas imagens e vá para Ferramentas - Conversão em lote . Adicione ações como eu fiz:
Aqui estão minhas ações:
-
HLS - crie tons de cinza:
- Matiz: 0
- Leveza: 0
- Saturação: -127
-
Níveis - abaixe um pouco o nível de preto para que o ruído cinza desapareça
- Ponto preto: 0
- Ponto branco: 212 - pode variar dependendo da imagem
- Filtro Reduzir ruído
-
Ajustar para aumentar o contraste
- Brilho: 0
- Contraste: 127 - este importa
- Gama: 1,06
-
Mínimo para tornar o preto mais grosso
- Tamanho do filtro: 5x5 - pode variar dependendo da imagem
Não se esqueça de salvar como tiff
(consulte a guia Saída ). Depois disso eu corro tesseract
:
tesseract test.tif text -psm 7
Note que selecionei o modo PSM 7: trate a imagem como uma única linha de texto. Se você tiver várias linhas, provavelmente precisará usar o modo 6 ou 3.
E aqui está o conteúdo do arquivo de saída text.txt
:
570 394 666 638 043