Você está fazendo várias perguntas, mas acho que a principal delas é:
Is there any standard dictating what it must contain?
Para meu conhecimento, não.
Considerando isso, suas perguntas relacionadas:
How is this list generated? Are its contents the same across different Unices?
são respondidos "depende de cada Unix diferente".
A convenção de incluir uma lista de palavras como parte do sistema operacional vem do utilitário spell(1)
, que o utiliza para um procedimento primitivo de verificação ortográfica.
O procedimento de verificação ortográfica é descrito no documento acadêmico “Desenvolvimento de uma lista de ortografia”, por MD McIlroy, da Bell Labs, 1982 .
Você deve verificar o gerenciador de pacotes de seu sistema operacional de onde vem a lista de ortografia, como ela é gerada e quais alternativas estão disponíveis.
No Debian GNU + Linux, por exemplo:
- O arquivo
/usr/share/dict/words
é um link simbólico gerenciado usando o sistema Debian de “alternativas”. - Um pacote de lista de palavras comum que fornece esse link é o pacote
wamerican
. - A documentação do pacote para
wamerican
declara que sua lista de palavras vem do projeto SCOWL (Listas orientadas para ortografia do Word) . li>
Muitos outros pacotes de lista de palavras podem ser instalados; cada um deles tem o campo "Fornece: lista de palavras":
$ aptitude search '?provides(wordlist)' | wc -l
34
Em Unidades diferentes, você precisará ver o sistema de pacotes e a documentação para conhecer a proveniência e as alternativas da lista de palavras.