Tente lista do Wikcionário das palavras inglesas mais frequentes . Pegue quantas ou quantas quiser!
Estou tentando escrever um programa com um recurso de verificação ortográfica / preenchimento automático. Para isso eu preciso de uma lista de tamanho decente das palavras inglesas mais comuns. O problema que encontrei é que há uma grande disparidade nos tamanhos de lista que encontrei. Eles são < 1.000 palavras ou > 50.000. Uma lista de < 1.000 palavras é muito curta e muitas palavras úteis são omitidas. No entanto, uma lista de > 50.000 palavras começa a se tornar um pouco demais para o meu algoritmo (velocidade).
Alguém sabe de uma lista ~ 3.000-12.000 palavras inglesas. De preferência em um arquivo .txt. Além disso, ele precisa ter uma licença relativamente não restritiva (ou seja, redistribuível).
Tente lista do Wikcionário das palavras inglesas mais frequentes . Pegue quantas ou quantas quiser!
link tem uma lista de palavras. Eu geralmente imaginaria que adicionar mais palavras não seria de modo algum computacionalmente intensivo (já que é na pior das hipóteses o tamanho da quantidade de comparações de listas de palavras, e provavelmente é mais rápido se você estiver usando um dicionário ou alguma outra estrutura de dados otimizada).
link Tem uma lista de palavras no arquivo palavras .
$ wc -w words extra.words
234937 words
121847 extra.words
356784 total
Os números nunca mentem ...