Quais conjuntos de dados disponíveis gratuitamente posso usar para treinar um classificador de texto?
Estamos tentando melhorar o engajamento de nossos usuários, recomendando o conteúdo mais relacionado a ele. Pensamos que, se classificássemos nosso conteúdo com base em um conjunto predefinido de palavras, podemos recomendar a ele que envolva conteúdo, obtendo seu feedback sobre o número aleatório de postagens já classificadas. antes.
Podemos usar essas informações para recomendar pulsos rotulados com essas classes. Mas descobrimos Se usamos um conjunto predefinido de palavras não relacionadas ao nosso conteúdo, o vetor de recursos estará cheio de zeros, também as categorias podem não ser relevantes para o nosso conteúdo. por isso, tentamos outra solução que agrupará nosso conteúdo e não o classificará.
Obrigado :)
fonte
Respostas:
Alguns conjuntos de dados padrão para classificação de texto são o grupo 20-News, Reuters (com 8 e 52 classes) e WebKb. Você pode encontrar todos eles aqui .
fonte
Uma das coleções de testes mais usadas para pesquisa de categorização de texto (link abaixo). Eu usei muitas vezes. Aproveite a sua exploração :)
http://www.daviddlewis.com/resources/testcollections/reuters21578/ ou http://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection
fonte
Há um monte de conjuntos de dados liberados pela UC Irvine para brincar aqui . Entre esses conjuntos de dados, existem algumas dezenas de conjuntos de dados textuais que podem ajudar vocês com sua tarefa.
Esses são tipos de conjuntos de dados genéricos; portanto, dependendo do seu objetivo, eles não devem ser usados como os únicos dados para treinar seus modelos; caso contrário, seu modelo - embora possa funcionar - não produzirá resultados de qualidade.
fonte
Além das sugestões acima, há um pdf extremamente útil - Coletas de texto de benchmarking para tarefas de classificação e cluster, que contém vários conjuntos de dados junto com os benchmarks para testar nossos modelos. Isso inclui 20ng Collection, Reuters e muitos dos conjuntos de dados sugeridos acima. Espero que ajude!
fonte