OCR para lista TAN (banco on-line)

0

Eu tenho uma lista de TAN em papel para serviços bancários on-line que se parece com isso:

001 123456   015 123456  029 123456  043 123456 ...
002 123456   ...
...

Eu fiz a varredura e agora quero usar o OCR para obter o texto.

Eu tentei tesseract, gocr e cuneiforme.

Todos os programas não obtêm bons resultados. Como posso escrever o texto?

Background: Eu quero armazenar a lista TAN no keepass. O Keepass suporta imagens, mas apenas a versão para PC. A versão do Android não. É por isso que quero texto. E o texto é melhor, pois você pode usar copiar e colar.

    
por guettli 14.01.2015 / 07:29

2 respostas

0

Eu mesmo encontrei esta solução:

  1. Verificar lista de TAN
  2. remova o ID da sequência com o Gimp. Apenas os TANs são deixados. Necessário já que, no meu caso, duas fontes diferentes são usadas, o que parece confundir o OCR
  3. gocr -C 0123456789 tans.png
  4. Seleção retangular no terminal: ctrl + alt select-with-mouse
  5. copie e cole no tans.txt
  6. read-tan-list.py tans.txt.
  7. insira o resultado no keepass ou outro aplicativo de senha.

read-tan-list.py:

import sys
i=0
tans=[]
for line in open(sys.argv[1]):
    line=line.strip()
    if not line:
        continue
    tans.append(line)
for i, tan in enumerate(tans):
    print('%03d %s' % (i+1, tan)),
    if i%5==4:
        print('\n'),
    else:
        print('   '),
    
por guettli 15.01.2015 / 07:12
0

A qualidade da imagem original é frequentemente um recurso crítico no ocr. (tente algo como 600 dpi)

Eu sugiro que você tente tesserat.

tesseract imagename outputbase [-l lang] 

(e, lidando com serviços bancários, escolha com muito cuidado o que você armazena em seus dispositivos ...)

    
por JJoao 14.01.2015 / 09:54