Supondo que você tenha arquivos com o nome "news.articles1", "news.articles2", etc, e você tem suas palavras comumente usadas em um arquivo chamado "stop.words"
cat news.articles* | tr -s '[:blank:]' '[\n*]' |
tr '[:upper:]' '[:lower:]' | fgrep -v -f stop.words
A saída desse pipeline não deve conter nenhuma de suas palavras comumente usadas. Pode ser necessário remover toda a pontuação com uma etapa adicional no pipeline, como:
tr -d '[:punct:]'
Uma boa versão em inglês de "stop.words" geralmente está em /usr/share/groff/<version>/eign
.