Extrai dados PDF usando anotações categorizadas

Question

1

Existe alguma ferramenta existente para extrair dados de arquivos PDF usando esse método. Vamos dizer que eu tenho 3 categorias

Imagem - esta será uma anotação retangular que cortará essa área específica onde a anotação é colocada
Título - essa é outra anotação de retângulo que apenas obterá o texto dentro desse retângulo. Se imagem, ela será convertida em texto por meio do OCR
Autor - igual ao # 2, mas agora mapeado para o autor

Em seguida, produzirá um formato de arquivo, digamos um CSV:

ImageURL,Title,Author

Essas categorias (campos) também devem ser agrupadas em registros, de modo que tenha 1 registro por linha.

Se não houver uma ferramenta existente para fazer isso, quais ferramentas ou APIs de programação / SDK poderiam me ajudar a criar uma?

pdf extract ocr csv annotations

por bman 19.02.2017 / 17:11

0 respostas