Sim, você extrairia para o doc para obter acesso ao texto e, em seguida, usar o software para analisar e obter palavras-chave (ou, como você disse, palavras interessantes).
TexLexAn é uma boa opção de código aberto: link
Aqui estão outros: link
Meu chefe me deu um pdf e pediu para criar um índice alfabético.
O índice conterá apenas palavras interessantes (para ele). A lista de 'palavra interessante' não está disponível e eu devo criar uma e mostrar a ele para aprovação.
Eu acho que posso encontrar uma maneira de transformar o pdf em .doc e o LibreOffice pode criar um índice alfabético quando você der um .sdi arquivo contendo as 'palavras interessantes'.
Então, minha maior preocupação agora é extrair todas as palavras únicas do pdf, filtrá-las para eliminar as mais comuns e criar a lista das mais significativas. Alguma sugestão ? Preciso escrever alguns aplicativos simples para filtrar as palavras ou posso usar o software existente?
Obrigado Filippo
Tags pdf word-count