OCR com texto não linguístico

3

Estou interessado em usar o OCR para reconhecer texto de um documento que não contenha palavras. Pelo contrário, é um documento com uma longa seqüência de caracteres impressos "aleatórios". Eu tenho tentado usar o tesseract para escanear o texto, mas parece que ele está procurando por palavras. Existe uma maneira de dizer ao tesseract apenas o reconhecimento de caractere simples?

    
por Daniel 28.08.2013 / 17:00

1 resposta

2

Sim, você pode desativar os dicionários definindo um arquivo de configuração contendo:

load_system_dawg F
load_freq_dawg F

e especifique-o com o comando.

    
por 08.10.2013 / 03:17