Origens da lista de palavras

11

Estou procurando uma fonte de substantivos, advérbios, adjetivos e verbos em várias línguas.

Eu gostaria que as listas estivessem divididas e não precisassem passar pelo OED (e equivalentes não ingleses) manualmente, recriando as listas.

Eu realmente não me importo com definições, e entendo que algumas palavras podem ser várias partes do discurso - tudo bem - palavras como "many" podem ser um substantivo ou adjetivo e podem aparecer nas duas listas.

Alguém aqui conhece essa fonte? Caso contrário, alguém poderá me apontar na direção certa?

Eu estou bem com o formato sendo um dos seguintes (ou semelhante se as pessoas tiverem ideias):

  • csv: <word>, noun (y/n), verb (y/n), adverb (y/n), adjective (y/n)
  • arquivos de texto simples como "substantivos", "verbos" etc.
  • uma tabela mysql
  • etc
Warren
fonte

Respostas:

8

Eu usei o WordNet da Universidade de Princeton para alguns projetos. Este é um banco de dados lexical em inglês. O Global WordNet é uma extensão do projeto que tenta fazer o mesmo para todos os idiomas.

Você também pode estar interessado em projetos relacionados em http://wordnet.princeton.edu/wordnet/related-projects/

teknikqa
fonte
1
WordNet é o caminho a percorrer. Todos os principais pesquisadores usam isso.
Ritwik Bose
4

Isso pode não ajudar em nada, eu não sei. Mas o MediaWiki tem uma API para listar todas as páginas pertencentes a uma determinada categoria. Você pode tentar usá-lo no Wiktionary.org.

Notas:

  • Cada consulta retorna apenas 500 resultados. No entanto, no final, também especifica um parâmetro a ser usado em outra consulta para obter os próximos 500 resultados.
  • Inclui tudo na categoria especificada, até outras subcategorias.
  • Os resultados parecem estar em ordem alfabética, embora tudo que comece com uma letra maiúscula chegue antes de qualquer letra minúscula.

Exemplos:

Espero que ajude, é o que eu poderia inventar.

Matt Blaine
fonte
1

Em segundo lugar, sugerirei @ wordknikqa do wordnet, mas sugiro que você verifique as APIs deles;

HISTÓRIA : Eu tive um curso de IA que teve uma parte de análise de linguagem; Usei as APIs perl da wordnet para pesquisar automaticamente os três principais tipos de definição e classificar o fraseado disso quase em tempo real END OF STORYTIME

Existem APIs disponíveis para vários idiomas

FYI: O projeto recebeu um A +

Andrew Bolster
fonte