Perl é provavelmente a melhor linguagem para este tipo de trabalho. O principal autor de Perl, Larry Wall , é tanto um programador de unix como lingüista, e a linguagem reflete strongmente seu interesse em lingüística. Existem vários perl
modules para processamento de idiomas, bem como processamento de texto simples.
Por exemplo, Lingua :: Sentence que é um perl
module para dividir parágrafos em sentenças. E vários outros Lingua::
modules. De fato, Lingua::Sentence
e módulos relacionados foram escritos para uma tarefa muito parecida com o que você é fazer agora, análise estatística dos textos (neste caso, o corpus Europarl , texto extraído dos anais do Parlamento Europeu)
Você poderia, por exemplo, usar Lingua::Sentence
para dividir cada parágrafo em frases, contar o número de palavras em cada frase, armazenar essa contagem em uma matriz e, em seguida, executar quaisquer análises estatísticas necessárias na matriz.
O Perl também tem vários módulos para análise estatística, que você também pode encontrar no CPAN (o Comprehensive Perl Archive Network) ou você pode Envie os dados brutos para um arquivo e processe-os com R ou alguma outra ferramenta de estatísticas.