converta imagens em pdf para texto

0

Eu tenho verificado para ver se há uma maneira de converter imagens de PDFs para um arquivo de texto real e eu encontrei algumas maneiras, mas eu não conseguia entender nada, eu não sou tão técnico, então se você quiser mesmo assim converter e eu já tentei todos os soft wares por isso não tenho certeza se há um software livre que faria isso, mas estou disposto a tentar se você me orientar para uma maneira simples de fazê-lo manualmente, talvez ou através de um software .algum do soft As mercadorias que eu tentei são OKULAR, GSCAN2PDF, GIMP, IMAGEMAGICK, XPDF, talvez essas sejam boas maneiras, mas estou fazendo algo errado, então uma boa explicação seria apreciada.

    
por Mohamad sinno 24.03.2015 / 14:28

1 resposta

2

Primeiro, instale o poppler-utils, isso contém Pdfimages. Pdfimages é uma linha de comando de ferramenta, que permite extrair todas as imagens de um arquivo PDF e salvá-las como arquivos JPEG.

Abra um terminal

Pressione Ctrl + Alt + T

Execute:

sudo -i
apt-get update
apt-get install poppler-utils

A sintaxe desta ferramenta é:

pdfimages -j file.pdf output_directory

Onde file.pdf é o arquivo que você deseja extrair imagens e output_directory é o diretório onde você deseja salvar as imagens.

As imagens são salvas no seguinte formato:

output_directory / output_directory-nnn.jpg

É engraçado, mas são nomeados com o mesmo nome do diretório onde você extraiu, um número e uma extensão consecutivos.

Segundo, basta instalar um aplicativo para ocr, por exemplo, ocrfeeder:

Abra um terminal

Pressione Ctrl + Alt + T

Execute:

sudo -i
apt-get update
apt-get install tesseract-ocr ocrfeeder tesseract-ocr-eng gocr cuneiform ocropusocrad

Quando o programa for aberto, selecione o mecanismo de pesquisa que você deseja usar. Selecione o menu Editar e selecione Preferências no menu suspenso.

Uma janela será aberta. Depois de abrir a janela, selecione a guia Ferramentas. Na guia Ferramentas, verá uma opção que coloca o mecanismo favorito. Nesta opção, selecione Tesseract e, em seguida, pressione o botão OK.

Depois de concluir as configurações, podemos começar com a ação

Para isso, pressione o símbolo +:

Em seguida, selecione o arquivo de imagem que você deseja abrir.

Se necessário, retocar a imagem, apenas você tem que acessar o menu Ferramentas. Uma vez dentro do menu Tools, selecione a opção unpaper. A tela encontrará várias opções e filtros para retocar a imagem.

    
por kyodake 24.03.2015 / 15:35