Como melhorar o desempenho do tesseract?

2

Por todas as contas, o tesseract é excelente. No entanto, meus resultados são sombrios. Eu preciso converter (digital, ao contrário de um livro) o texto que eu só tenho como um png. Por exemplo:

   2 3 academics 1 1711
   2 3 Achlmbobelmann 211 191—2
   1 3 Aoqusmono|Food 1 171
   n 5 AFD.seeAgem:eFIan§asedeDével 1 (muessmm)
   3 4 allluence 211 I849
   81 5 Afnca 33:21 9.lZ3l.Z55&9l.93-4.9898100.II8r2D.IZ§£

Isto é de texto azul escuro contra um campo branco. A imagem original pode ser encontrada aqui . Como posso fazer melhor?

    
por katriel 27.01.2014 / 08:27

1 resposta

1

O Tesseract tem um desempenho muito melhor quando é treinado: link

O que encontramos em nosso trabalho em mais de 50 milhões de PDFs para analisar, a seguinte estratégia:

(1) A partir de arquivos do tipo PNG, tente identificar a fonte que está sendo usada. (2) Treinar o Tesseract com um formulário TTF da fonte (em vez de um bitmap da imagem PNG) (3) Execute o tesseract com este novo treinamento.

Estamos automatizando o item 2 acima, mas existem ferramentas on-line para identificar uma fonte. Sugiro: link

link também pode ajudar.

    
por mshaffer 23.05.2014 / 15:27