De onde vêm as palavras em / usr / share / dict / words?

5

/usr/share/dict/words contém muitas palavras. Como esta lista é gerada? Seu conteúdo é o mesmo em diferentes Unices? Existe algum padrão que dite o que deve conter?

Tudo o que consegui mostrar até agora é que no Ubuntu / Debian a lista vem da lista de palavras pacotes, mas suas descrições não oferecem nenhuma pista sobre como as listas foram realmente geradas.

    
por Mark Amery 02.07.2015 / 21:23

1 resposta

5

Você está fazendo várias perguntas, mas acho que a principal delas é:

Is there any standard dictating what it must contain?

Para meu conhecimento, não.

Considerando isso, suas perguntas relacionadas:

How is this list generated? Are its contents the same across different Unices?

são respondidos "depende de cada Unix diferente".

A convenção de incluir uma lista de palavras como parte do sistema operacional vem do utilitário spell(1) , que o utiliza para um procedimento primitivo de verificação ortográfica.

O procedimento de verificação ortográfica é descrito no documento acadêmico “Desenvolvimento de uma lista de ortografia”, por MD McIlroy, da Bell Labs, 1982 .

Você deve verificar o gerenciador de pacotes de seu sistema operacional de onde vem a lista de ortografia, como ela é gerada e quais alternativas estão disponíveis.

No Debian GNU + Linux, por exemplo:

  • O arquivo /usr/share/dict/words é um link simbólico gerenciado usando o sistema Debian de “alternativas”.
  • Um pacote de lista de palavras comum que fornece esse link é o pacote wamerican .
  • A documentação do pacote para wamerican declara que sua lista de palavras vem do projeto SCOWL (Listas orientadas para ortografia do Word) . li>

Muitos outros pacotes de lista de palavras podem ser instalados; cada um deles tem o campo "Fornece: lista de palavras":

$ aptitude search '?provides(wordlist)' | wc -l
34

Em Unidades diferentes, você precisará ver o sistema de pacotes e a documentação para conhecer a proveniência e as alternativas da lista de palavras.

    
por 05.01.2016 / 22:58