Como copiar texto de uma imagem em um arquivo pdf?

0

Eu posso ver uma imagem em pdf com texto usando o visualizador de documentos evince, no entanto, não consigo selecionar o texto na imagem para copiar e colar. Como faço para copiar texto de uma imagem em um arquivo pdf?

    
por linuxfreebird 20.09.2014 / 01:18

2 respostas

4

Você precisa OCR (Optical Character Recognition) para extrair texto das imagens. Se você Google OCR você encontrará muitas opções on-line OCR software que tenta extrair texto das imagens. Eu pessoalmente nunca usei um tão difícil para dizer como eles são bem sucedidos. Você notará que alguns deles pegam arquivos de imagem como uma entrada, nesse caso você terá que converter o PDF para um formato de imagem (ferramentas para isso também estão disponíveis on-line).

Se você tem mais inclinação técnica, há uma biblioteca Python pytesser que pode ser útil.

Capture2Text é uma ferramenta de código aberto que executa o OCR em um screenshot e gera o resultado na área de transferência de modo que quase Parece que você está copiando o texto da imagem. Esta é provavelmente a sua melhor aposta.

    
por 20.09.2014 / 03:35
0

A menos que você consiga algum tipo de OCR para funcionar, como sugerido por Harvinder, você está sem sorte. Se é uma imagem em um PDF, não é diferente de ser uma imagem em um JPEG ou PNG ou qualquer outra imagem.

Mesmo que você encontre um pacote de OCR adequado para você, poderá obter resultados muito ruins. Passei mais tempo editando PDFs com OCR do que seria necessário apenas para redigitar o texto.

    
por 20.09.2014 / 05:26

Tags