sed -e 's/[^[:alpha:]]/ /g' text_to_analize.txt | tr '\n' " " | tr -s " " | tr " " '\n'| tr 'A-Z' 'a-z' | sort | uniq -c | sort -nr | nl
Este comando faz o seguinte:
- Substitua todos os caracteres não alfanuméricos por um espaço em branco.
- Todas as quebras de linha são convertidas em espaços também.
- Reduz todos os vários espaços em branco para um espaço em branco
- Todos os espaços agora são convertidos em quebras de linha. Cada palavra em uma linha.
- Traduz todas as palavras para minúsculas para evitar que 'Olá' e 'olá' sejam palavras diferentes
- Classifica o texto
- Conta e remove as linhas iguais
- Ordena reversão para contar as palavras mais frequentes
- Adicione um número de linha a cada palavra para saber a palavra posotion em todo
Por exemplo, se eu quiser analisar a primeira mensagem de Linus Torvald:
From: [email protected] (Linus Benedict Torvalds)
Newsgroups: comp.os.minix Subject: What would you like to see most in
minix? Summary: small poll for my new operating system Message-ID:
<[email protected]> Date: 25 Aug 91 20:57:08
GMT Organization: University of Helsinki
Hello everybody out there using minix –
I’m doing a (free) operating system (just a hobby, won’t be big and
professional like gnu) for 386(486) AT clones. This has been brewing
since april, and is starting to get ready. I’d like any feedback on
things people like/dislike in minix, as my OS resembles it somewhat
(same physical layout of the file-system (due to practical reasons)
among other things).
I’ve currently ported bash(1.08) and gcc(1.40), and things seem to
work. This implies that I’ll get something practical within a few
months, and I’d like to know what features most people would want. Any
suggestions are welcome, but I won’t promise I’ll implement them
por
26.12.2016 / 22:17