Existe alguma ferramenta existente para extrair dados de arquivos PDF usando esse método. Vamos dizer que eu tenho 3 categorias
Em seguida, produzirá um formato de arquivo, digamos um CSV:
ImageURL,Title,Author
Essas categorias (campos) também devem ser agrupadas em registros, de modo que tenha 1 registro por linha.
Se não houver uma ferramenta existente para fazer isso, quais ferramentas ou APIs de programação / SDK poderiam me ajudar a criar uma?
Tags pdf extract ocr csv annotations