Lista de palavras inglesas de tamanho médio

3

Estou tentando escrever um programa com um recurso de verificação ortográfica / preenchimento automático. Para isso eu preciso de uma lista de tamanho decente das palavras inglesas mais comuns. O problema que encontrei é que há uma grande disparidade nos tamanhos de lista que encontrei. Eles são < 1.000 palavras ou > 50.000. Uma lista de < 1.000 palavras é muito curta e muitas palavras úteis são omitidas. No entanto, uma lista de > 50.000 palavras começa a se tornar um pouco demais para o meu algoritmo (velocidade).

Alguém sabe de uma lista ~ 3.000-12.000 palavras inglesas. De preferência em um arquivo .txt. Além disso, ele precisa ter uma licença relativamente não restritiva (ou seja, redistribuível).

    
por RectangleTangle 02.06.2011 / 01:32

3 respostas

4

Tente lista do Wikcionário das palavras inglesas mais frequentes . Pegue quantas ou quantas quiser!

    
por 02.06.2011 / 02:08
2

link tem uma lista de palavras. Eu geralmente imaginaria que adicionar mais palavras não seria de modo algum computacionalmente intensivo (já que é na pior das hipóteses o tamanho da quantidade de comparações de listas de palavras, e provavelmente é mais rápido se você estiver usando um dicionário ou alguma outra estrutura de dados otimizada).

    
por 02.06.2011 / 02:09
0

link Tem uma lista de palavras no arquivo palavras .

$ wc -w words extra.words 
  234937 words
  121847 extra.words
  356784 total

Os números nunca mentem ...

    
por 02.06.2011 / 08:28