O serviço online gratuito Wordcounter classifica as palavras mais usadas em qualquer corpo de texto. Use isso para ver quais palavras você usa em excesso ou talvez apenas para encontrar algumas palavras-chave de um documento.
Eu preciso de um programa para contar o número de palavras junto com o número de ocorrências de cada palavra em um arquivo.
(A maioria dos exemplos encontrados apenas conta o número total de palavras.)
O serviço online gratuito Wordcounter classifica as palavras mais usadas em qualquer corpo de texto. Use isso para ver quais palavras você usa em excesso ou talvez apenas para encontrar algumas palavras-chave de um documento.
Se estiver usando a linha de comando (ou um script), então há um milhão de opções. Como usando o Perl (para o Windows, você precisa instalar o ActivePerl ou Cygwin com Perl):
perl -0777 -lape's/\s+/\n/g' FILENAME | sort | uniq -c | sort -nr
perl -0777
faz com que o Perl opere no arquivo inteiro como se fosse uma linha ("modo slurp"). 's/\s+/\n/g'
altera todos os espaços em branco em novas linhas, assim: a saída de Perl é uma palavra por linha. sort
classifica as palavras em ordem alfabética. uniq
elimina palavras duplicadas; com a opção -c
, também imprime o número de ocorrências. sort
, com a opção -nr
, classifica numericamente o arquivo resultante em ordem decrescente. Isso é muito fácil. Basta usar o seguinte comando:
sort file.txt | uniq -c | sort -r
De uma linha de comando do Linux:
sed s/' '/\n/g FILENAME | sort | uniq -c | sort -nr
No Mac OS X, que usa a versão BSD de sed
, o \n
precisa de alguma mágica :
sed 's/ /\'$'\n/g' FILENAME | sort | uniq -c | sort -nr
Linha de comando do Linux (Ubuntu):
tr -cs "[:alpha:]" "[\n*]" < file1 | sort | uniq -c | sort -nr > file2
Tanto o MS Office quanto o OpenOffice têm esse recurso. Vá para ferramentas / contagem de palavras.
Se você estivesse usando o Windows, poderia usar o processador de texto Atlantis . Ele tem um monte de pequenos recursos e toques, incluindo um para acender o uso excessivo de palavras.
Tags ubuntu