De onde vêm as palavras em / usr / share / dict / words?

10

/usr/share/dict/wordscontém muitas palavras. Como essa lista é gerada? Seu conteúdo é o mesmo nos diferentes Unices? Existe algum padrão que dite o que deve conter?

Tudo o que consegui descobrir até agora é que, no Ubuntu / Debian, a lista vem dos pacotes de listas de palavras , mas suas descrições não oferecem nenhuma pista de como as listas foram realmente geradas.

Mark Amery
fonte

Respostas:

10

Você está fazendo várias perguntas, mas acho que a principal é:

Existe algum padrão que dite o que deve conter?

Que eu saiba, não.

Dado isso, suas perguntas relacionadas:

Como essa lista é gerada? Seu conteúdo é o mesmo nos diferentes Unices?

são respondidas "depende de cada Unix diferente".

A convenção de incluir uma lista de palavras como parte do sistema operacional vem o spell(1)utilitário , que o utiliza para um procedimento de verificação ortográfica primitivo.

Esse procedimento de verificação ortográfica é descrito no artigo acadêmico "Development of a Spelling List", de MD McIlroy, do Bell Labs, 1982 .

Você deve verificar o gerenciador de pacotes do seu sistema operacional para saber de onde vem a lista ortográfica, como é gerada e quais alternativas estão disponíveis.

No Debian GNU + Linux, por exemplo:

  • O /usr/share/dict/wordsarquivo é um link simbólico gerenciado usando o sistema "alternativas" do Debian.
  • Um pacote comum de lista de palavras que fornece esse link é o wamericanpacote.
  • A documentação do pacote para os wamericanestados de sua lista de palavras vem do projeto SCOWL (Spell Checker Oriented Word Lists) .

Muitos outros pacotes de lista de palavras podem ser instalados; cada um deles tem o campo "Fornece: lista de palavras":

$ aptitude search '?provides(wordlist)' | wc -l
34

Em diferentes Unices, você precisará ver o sistema de pacotes e a documentação para conhecer a procedência e as alternativas da lista de palavras.

nariz grande
fonte
2
FWIW: Em uma instalação mínima do Centos 7 x64 (onde o arquivo de palavras está ausente), yum install wordsfiz o truque para mim.
Wossname