Primeiro, instale o poppler-utils, isso contém Pdfimages. Pdfimages é uma linha de comando de ferramenta, que permite extrair todas as imagens de um arquivo PDF e salvá-las como arquivos JPEG.
Abra um terminal
Pressione Ctrl + Alt + T
Execute:
sudo -i
apt-get update
apt-get install poppler-utils
A sintaxe desta ferramenta é:
pdfimages -j file.pdf output_directory
Onde file.pdf é o arquivo que você deseja extrair imagens e output_directory é o diretório onde você deseja salvar as imagens.
As imagens são salvas no seguinte formato:
output_directory / output_directory-nnn.jpg
É engraçado, mas são nomeados com o mesmo nome do diretório onde você extraiu, um número e uma extensão consecutivos.
Segundo, basta instalar um aplicativo para ocr, por exemplo, ocrfeeder:
Abra um terminal
Pressione Ctrl + Alt + T
Execute:
sudo -i
apt-get update
apt-get install tesseract-ocr ocrfeeder tesseract-ocr-eng gocr cuneiform ocropusocrad
Quando o programa for aberto, selecione o mecanismo de pesquisa que você deseja usar. Selecione o menu Editar e selecione Preferências no menu suspenso.
Uma janela será aberta. Depois de abrir a janela, selecione a guia Ferramentas. Na guia Ferramentas, verá uma opção que coloca o mecanismo favorito. Nesta opção, selecione Tesseract e, em seguida, pressione o botão OK.
Depois de concluir as configurações, podemos começar com a ação
Para isso, pressione o símbolo +:
Em seguida, selecione o arquivo de imagem que você deseja abrir.
Se necessário, retocar a imagem, apenas você tem que acessar o menu Ferramentas. Uma vez dentro do menu Tools, selecione a opção unpaper. A tela encontrará várias opções e filtros para retocar a imagem.