API / Ferramenta para mineração de texto não estruturado? [fechadas]

1

Eu desejo criar um mapa de conceitos a partir de um texto não estruturado. Por exemplo

Desired input: find "/" -name "*.txt"
Desired output: concepts-graph.dot

Em outras palavras, quero extrair meus arquivos de texto e criar algum tipo de representação estruturada de palavras-chave / conceitos. Vagamente um analisador de texto do Google para um homem pobre.

Existe uma ferramenta / API de código aberto que pode encontrar relações entre os termos em um arquivo de texto simples?

    
por Sridhar-Sarnobat 12.06.2012 / 04:00

1 resposta

1

Existem muitas ferramentas com as quais você pode criar:

No que diz respeito às palavras-chave, existem ferramentas básicas, como os lemadores Porter, disponíveis na maioria das linguagens de programação e muito mais opções para idiomas específicos.

Por exemplo, há o NLTK (kit de ferramentas de linguagem natural) - um sistema de classificação de texto em Python - que você pode usar para coisas como marcação de partes do discurso ( link )

Além disso, existem vários pacotes de mineração de texto que você pode usar em R: link , por exemplo (também veja estes slides: link .

Se você puder fornecer uma ideia mais clara do tipo de análise de texto que você tem em mente, seria mais fácil sugerir pacotes específicos que possam ser relevantes?

    
por 12.06.2012 / 04:16