Extrai textos / imagens digitalizados destacados do pdf

Question

Extrai textos / imagens digitalizados destacados do pdf

#1 resposta do (0 votos)

0

Eu preciso de alguma ferramenta ou solução alternativa para extrair áreas destacadas de um PDF. Eu estou trabalhando com um pdf digitalizado, então não há reconhecimento de texto e também preciso extrair imagens destacadas.

Eu tentei Zotelo, Mendeley e selecionar o resumo de impressão da caixa de diálogo printpdf (ctrl + p), mas eles só funcionam com texto realçado.

pdf highlighting

por user921416 09.07.2018 / 03:24

1 resposta

Tags pdf highlighting

Removendo o Kubuntu e instalando o Windows Processos iniciados com cron estão sendo mortos algumas vezes

score 0 · Answer 1

Como você está trabalhando com um PDF digitalizado, o próprio PDF contém dados de imagem compactados. Não contém o texto como tal. Assim, sua solução precisa:

Extraia a imagem do pdf para um formato de imagem
Possivelmente analise o texto com uma ferramenta de OCR dedicada

Da sua pergunta, não está claro qual SO e ferramentas você tem à sua disposição, nem qual é a sua capacidade de criação de scripts. Por causa disso, aqui está uma resposta genérica agora, e esse processo é bastante automatizável (sujeito a variações nos pdfs) se você precisar repeti-lo várias vezes.

Se você estiver fazendo isso manualmente, o primeiro passo pode ser tão simples quanto a tela de impressão e o possível corte. Uma alternativa é usar uma ferramenta para converter o documento pdf em um arquivo de imagem . Então você pode cortar de acordo com suas necessidades, por exemplo, com o gimp .

Para a segunda etapa, você pode usar qualquer software de OCR , por exemplo, Tesseract .