gImageReader é um front end simples do GTK + para tesseract-ocr
.
sudo apt-get install gimagereader tesseract-ocr
desculpa pelo texto em alemão
Eu digitalizei cerca de 80 páginas em escala de cinza pdf (formato de imagem). O tamanho final do arquivo é de cerca de 70MB, o que é muito grande.
Agora estou procurando um método para converter o arquivo PDF baseado em imagem em escala de cinza em um simples arquivo PDF preto / branco baseado em texto.
Eu fiz muitas tentativas com gs
, mas sem sucesso (apenas uma recuperação de alguns por cento).
Se algum especialista tem alguma idéia, por favor me avise.
Você pode tentar o pdfocr:
sudo add-apt-repository ppa:gezakovacs/pdfocr
sudo apt-get update
sudo apt-get install pdfocr
Para executar a sintaxe é
pdfocr -i input.pdf -o output.pdf
em que input.pdf
é o nome do arquivo de entrada e output.pdf
do arquivo de saída.
Por padrão, ele usa o Tesseract. Para instalá-lo:
sudo apt-get install tesseract-ocr
O pdfocr cria uma camada de texto incorporada.
Carrega o tesseract e outros na instalação. Solução fácil de um passo e pode ser roteirizada. Ele pode usar hocr2pdf
para criar um pdf de texto simples, mas não está pronto para o horário nobre ... ainda. O padrão usa o tesseract e cria um pdf "sanduíche": imagem + texto abaixo.
A imagem incorporada pode ser removida com comandos como:
% bl0ck_qu0te%mas o texto está oculto, por isso parece uma página em branco.
Carregar o PDF em LibreOffice Draw
expõe o texto e a imagem pode ser excluída manualmente.
No seu arquivo pdf, clique com o botão direito e salve cada página como imagem (ou encontre alguma ferramenta que faça todas as páginas automaticamente)
Abra o centro de software do Ubuntu. Pesquisar por tesseract Isto irá encontrar YAGF que você deve instalar. Em YAGF, clique em Arquivo - > Abra Imagem e carregue sua imagem. Em seguida, clique em Arquivo - > Reconhecer.
Eu tive 100% de precisão no meu primeiro teste.
Para a interface gráfica sugerida por @ A.B. no ubuntu 14.04 você deve seguir:
ocr tesseract no ubuntu 14.04
ou de qualquer maneira, adicione à lista de repositórios:
sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update
antes que isso funcione:
sudo apt-get install gimagereader
Tags pdf