tira as palavras mais frequentes do texto

Question

tira as palavras mais frequentes do texto

#1 resposta do (5 votos)

3

Eu tenho um problema simples, mas infelizmente não sei por onde começar (estou apenas começando). Então, o que eu quero fazer é aumentar o meu vocabulário. Eu tive a ideia de tirar as palavras mais usadas dos artigos de notícias. Eu encontrei uma lista das 5.000 palavras mais usadas e salvei. Depois de obter as palavras mais comumente usadas, posso criar um corpus em TextSTAT e fazer uma contagem de frequência de palavras e escolher quais palavras eu quero aprender dessa maneira. Mas como faço para que as palavras da minha lista de palavras mais usadas sejam removidas dos artigos que vou salvar?

text-processing shell-script

por Anonymous 08.11.2013 / 20:21

1 resposta

Tags text-processing shell-script

execute as opções do script de shell Transferindo a customização do XFCE de um sistema para outro?

score 5 · Answer 1

Supondo que você tenha arquivos com o nome "news.articles1", "news.articles2", etc, e você tem suas palavras comumente usadas em um arquivo chamado "stop.words"

cat news.articles* | tr -s '[:blank:]' '[\n*]' |
tr '[:upper:]' '[:lower:]' | fgrep -v -f stop.words

A saída desse pipeline não deve conter nenhuma de suas palavras comumente usadas. Pode ser necessário remover toda a pontuação com uma etapa adicional no pipeline, como:

tr -d '[:punct:]'

Uma boa versão em inglês de "stop.words" geralmente está em /usr/share/groff/<version>/eign .