Estou procurando uma fonte de substantivos, advérbios, adjetivos e verbos em várias línguas.
Eu gostaria que as listas já estivessem divididas e não precisassem passar pelo OED (e equivalentes não ingleses) manualmente, recriando as listas.
Eu realmente não me importo com definições, e entendo que algumas palavras podem ser várias partes do discurso - tudo bem - palavras como "many" podem ser um substantivo ou adjetivo e podem aparecer nas duas listas.
Alguém aqui conhece essa fonte? Caso contrário, alguém poderá me apontar na direção certa?
Eu estou bem com o formato sendo um dos seguintes (ou semelhante se as pessoas tiverem ideias):
- csv:
<word>, noun (y/n), verb (y/n), adverb (y/n), adjective (y/n)
- arquivos de texto simples como "substantivos", "verbos" etc.
- uma tabela mysql
- etc
Respostas:
Eu usei o WordNet da Universidade de Princeton para alguns projetos. Este é um banco de dados lexical em inglês. O Global WordNet é uma extensão do projeto que tenta fazer o mesmo para todos os idiomas.
Você também pode estar interessado em projetos relacionados em http://wordnet.princeton.edu/wordnet/related-projects/
fonte
Isso pode não ajudar em nada, eu não sei. Mas o MediaWiki tem uma API para listar todas as páginas pertencentes a uma determinada categoria. Você pode tentar usá-lo no Wiktionary.org.
Notas:
Exemplos:
Espero que ajude, é o que eu poderia inventar.
fonte
Em segundo lugar, sugerirei @ wordknikqa do wordnet, mas sugiro que você verifique as APIs deles;
HISTÓRIA : Eu tive um curso de IA que teve uma parte de análise de linguagem; Usei as APIs perl da wordnet para pesquisar automaticamente os três principais tipos de definição e classificar o fraseado disso quase em tempo real END OF STORYTIME
Existem APIs disponíveis para vários idiomas
FYI: O projeto recebeu um A +
fonte