OCR Tesseract, erro de página vazia?

5

Eu o compilei de fontes com leptonica . Esta é uma imagem png com fundo transparente, que eu editei adicionando uma cor azul e ainda este erro:

Tesseract Open Source OCR Engine v3.02.02 with Leptonica
Empty page!!
Empty page!!

Aqui está a entrada da imagem:

    
por Jim 18.01.2013 / 05:41

3 respostas

5

tente a opção psm.

-psm N
    Set Tesseract to only run a subset of layout analysis and assume a certain form of image. The options for N are:

    0 = Orientation and script detection (OSD) only.
    1 = Automatic page segmentation with OSD.
    2 = Automatic page segmentation, but no OSD, or OCR.
    3 = Fully automatic page segmentation, but no OSD. (Default)
    4 = Assume a single column of text of variable sizes.
    5 = Assume a single uniform block of vertically aligned text.
    6 = Assume a single uniform block of text.
    7 = Treat the image as a single text line.
    8 = Treat the image as a single word.
    9 = Treat the image as a single word in a circle.
    10 = Treat the image as a single character.

Referência: link

    
por 26.07.2013 / 11:18
3

Processe sua imagem para limitar a cor de fundo. Transforme a cor do texto em preto (para um melhor reconhecimento. Depois de ter limitado o fundo, deve ser bastante simples alterar os valores das cores.) Transforme sua imagem em escala de cinza. Em seguida, converta para .tif format.

Agora você pode ter a chance de processar essa imagem (o superusuário não me deixa postar imagens, então eu as vinculo):

Imagem processada

Agora, execute o seguinte comando:

tesseract test.tif test_output -psm 7

e o resultado foi:

Tist

O que é muito bom, pois não usei nenhum dado de treinamento adicional além do eng padrão.

Captura de tela do resultado

    
por 15.08.2014 / 17:31
2

O Tesseract não é treinado para reconhecer manuscritos. Não sei o que faz com essas cores também.

Você poderia tentar treinar tesseract com esse manuscrito ...

    
por 22.02.2013 / 13:13