Extrai textos / imagens digitalizados destacados do pdf

0

Eu preciso de alguma ferramenta ou solução alternativa para extrair áreas destacadas de um PDF. Eu estou trabalhando com um pdf digitalizado, então não há reconhecimento de texto e também preciso extrair imagens destacadas.

Eu tentei Zotelo, Mendeley e selecionar o resumo de impressão da caixa de diálogo printpdf (ctrl + p), mas eles só funcionam com texto realçado.

    
por user921416 09.07.2018 / 05:24

1 resposta

0

Como você está trabalhando com um PDF digitalizado, o próprio PDF contém dados de imagem compactados. Não contém o texto como tal. Assim, sua solução precisa:

  1. Extraia a imagem do pdf para um formato de imagem
  2. Possivelmente analise o texto com uma ferramenta de OCR dedicada

Da sua pergunta, não está claro qual SO e ferramentas você tem à sua disposição, nem qual é a sua capacidade de criação de scripts. Por causa disso, aqui está uma resposta genérica agora, e esse processo é bastante automatizável (sujeito a variações nos pdfs) se você precisar repeti-lo várias vezes.

Se você estiver fazendo isso manualmente, o primeiro passo pode ser tão simples quanto a tela de impressão e o possível corte. Uma alternativa é usar uma ferramenta para converter o documento pdf em um arquivo de imagem . Então você pode cortar de acordo com suas necessidades, por exemplo, com o gimp .

Para a segunda etapa, você pode usar qualquer software de OCR , por exemplo, Tesseract .

    
por 09.07.2018 / 09:33