tira as palavras mais frequentes do texto

3

Eu tenho um problema simples, mas infelizmente não sei por onde começar (estou apenas começando). Então, o que eu quero fazer é aumentar o meu vocabulário. Eu tive a ideia de tirar as palavras mais usadas dos artigos de notícias. Eu encontrei uma lista das 5.000 palavras mais usadas e salvei. Depois de obter as palavras mais comumente usadas, posso criar um corpus em TextSTAT e fazer uma contagem de frequência de palavras e escolher quais palavras eu quero aprender dessa maneira. Mas como faço para que as palavras da minha lista de palavras mais usadas sejam removidas dos artigos que vou salvar?

    
por Anonymous 08.11.2013 / 21:21

1 resposta

5

Supondo que você tenha arquivos com o nome "news.articles1", "news.articles2", etc, e você tem suas palavras comumente usadas em um arquivo chamado "stop.words"

cat news.articles* | tr -s '[:blank:]' '[\n*]' |
tr '[:upper:]' '[:lower:]' | fgrep -v -f stop.words 

A saída desse pipeline não deve conter nenhuma de suas palavras comumente usadas. Pode ser necessário remover toda a pontuação com uma etapa adicional no pipeline, como:

tr -d '[:punct:]'

Uma boa versão em inglês de "stop.words" geralmente está em /usr/share/groff/<version>/eign .

    
por 08.11.2013 / 21:34