Olá, estou escrevendo um jogo em que o jogador precisa conectar um grupo de letras para formar palavras. Algo como leitor ávido, mas será muito diferente, espero.
O ponto da questão é que preciso construir um dicionário de palavras.
Eu criei um programa java simples que rastreia a web e extrai palavras, mas muito lixo é misturado com as boas palavras e é impossível limpá-lo. Estou falando de 100.000 palavras.
Existe algum dicionário disponível que possa ser usado livremente ou alguém tem uma idéia de como criar um?
Obrigado!
O site a seguir está tentando acumular links para diferentes projetos de dicionário aberto. Se eu entendo o que eles estão fazendo corretamente, estão oferecendo pacotes de dicionário que você pode baixar e ler com o seu aplicativo. Espero que isso o leve a uma direção útil.
Bancos de dados do dicionário aberto
fonte
O projeto Moby é o maior que eu conheço. É também a fonte do pacote "words" do Fedora, por exemplo, pelo menos em inglês.
fonte
Este parece bem legal, embora eu não saiba sobre os outros.
Parece estar em um formato facilmente analisável e legível.
fonte
Realizei algo recentemente em que rasguei todas as palavras da guerra e da paz, embora não contenha todas as palavras do dicionário, tem o benefício adicional de poder contar o uso das palavras para ter uma idéia da distribuição de uso. Você também encontrará gírias palavras e nomes, no entanto, embora possam ser filtrados de maneira simples
fonte