<alice tr -cd "[:alpha:][:space:]-'" |
tr ' [:upper:]' '\n[:lower:]' |
tr -s '\n' |
sed "s/^['-]*//;s/['-]$//" |
sort |
uniq -c > alice_unique
Linha por linha:
- Remova tudo, exceto letras, espaços em branco, apóstrofos e hifens
- Transforme espaços em novas linhas e converta maiúsculas em minúsculas
- "Apertar" novas linhas consecutivas
- Retirar apóstrofos e hifens iniciais ou finais
- Classifique as palavras
- Mostrar cada palavra única com uma contagem de quantas vezes ocorreu
Se você deveria contar números como palavras, isso está errado. Se o texto não for ASCII, isso pode não funcionar. Para Alice no País das Maravilhas é provavelmente bom o suficiente.