OCR Tesseract, erro de página vazia?

Question

OCR Tesseract, erro de página vazia?

#1 resposta do (5 votos)
#2 resposta do (3 votos)
#3 resposta do (2 votos)

5

Eu o compilei de fontes com leptonica . Esta é uma imagem png com fundo transparente, que eu editei adicionando uma cor azul e ainda este erro:

Tesseract Open Source OCR Engine v3.02.02 with Leptonica
Empty page!!
Empty page!!

Aqui está a entrada da imagem:

ocr tesseract-ocr

por Jim 18.01.2013 / 04:41

3 respostas

Tags ocr tesseract-ocr

OS X: Excluir pasta única do Backup do Time Machine via Terminal Vi apenas mostrar 16 linhas, como mostrar em tela cheia?

score 5 · Answer 1

tente a opção psm.

-psm N
    Set Tesseract to only run a subset of layout analysis and assume a certain form of image. The options for N are:

    0 = Orientation and script detection (OSD) only.
    1 = Automatic page segmentation with OSD.
    2 = Automatic page segmentation, but no OSD, or OCR.
    3 = Fully automatic page segmentation, but no OSD. (Default)
    4 = Assume a single column of text of variable sizes.
    5 = Assume a single uniform block of vertically aligned text.
    6 = Assume a single uniform block of text.
    7 = Treat the image as a single text line.
    8 = Treat the image as a single word.
    9 = Treat the image as a single word in a circle.
    10 = Treat the image as a single character.

Referência: link

score 3 · Answer 2

Processe sua imagem para limitar a cor de fundo. Transforme a cor do texto em preto (para um melhor reconhecimento. Depois de ter limitado o fundo, deve ser bastante simples alterar os valores das cores.) Transforme sua imagem em escala de cinza. Em seguida, converta para .tif format.

Agora você pode ter a chance de processar essa imagem (o superusuário não me deixa postar imagens, então eu as vinculo):

Imagem processada

Agora, execute o seguinte comando:

tesseract test.tif test_output -psm 7

e o resultado foi:

Tist

O que é muito bom, pois não usei nenhum dado de treinamento adicional além do eng padrão.

Captura de tela do resultado

score 2 · Answer 3

O Tesseract não é treinado para reconhecer manuscritos. Não sei o que faz com essas cores também.

Você poderia tentar treinar tesseract com esse manuscrito ...