Sugerir conjuntos de dados de treinamento do classificador de texto

9

Quais conjuntos de dados disponíveis gratuitamente posso usar para treinar um classificador de texto?

Estamos tentando melhorar o engajamento de nossos usuários, recomendando o conteúdo mais relacionado a ele. Pensamos que, se classificássemos nosso conteúdo com base em um conjunto predefinido de palavras, podemos recomendar a ele que envolva conteúdo, obtendo seu feedback sobre o número aleatório de postagens já classificadas. antes.

Podemos usar essas informações para recomendar pulsos rotulados com essas classes. Mas descobrimos Se usamos um conjunto predefinido de palavras não relacionadas ao nosso conteúdo, o vetor de recursos estará cheio de zeros, também as categorias podem não ser relevantes para o nosso conteúdo. por isso, tentamos outra solução que agrupará nosso conteúdo e não o classificará.

Obrigado :)

Abdelmawla
fonte
11
Acho que são necessários mais detalhes sobre o seu problema antes que alguém possa recomendar um conjunto de dados.
Neil Slater
3
Para qual propósito? Filtragem de spam? Análise de sentimentos? Sem um objetivo claro, é muito difícil sugerir um conjunto de dados.
Lsdr
@lsdr Olhando para as respostas, parece que a pergunta não precisa necessariamente de mais detalhes.
Amir Ali Akbari
@AmirAliAkbari Acho que eles vieram depois de uma edição. Eu retrai meu voto próximo, de qualquer maneira.
Rubens
Um lugar mais apropriado para esta pergunta é opendata.stackexchange.com
sheldonkreger

Respostas:

14

Alguns conjuntos de dados padrão para classificação de texto são o grupo 20-News, Reuters (com 8 e 52 classes) e WebKb. Você pode encontrar todos eles aqui .

Debasis
fonte
Obrigado :), eu já visitou antes, mas eu achei de classificações são fracos o suficiente para não abstrata ou pode não estar relacionado com o meu conteúdo
Abdelmawla
5

Há um monte de conjuntos de dados liberados pela UC Irvine para brincar aqui . Entre esses conjuntos de dados, existem algumas dezenas de conjuntos de dados textuais que podem ajudar vocês com sua tarefa.

Esses são tipos de conjuntos de dados genéricos; portanto, dependendo do seu objetivo, eles não devem ser usados ​​como os únicos dados para treinar seus modelos; caso contrário, seu modelo - embora possa funcionar - não produzirá resultados de qualidade.

lsdr
fonte
1

Além das sugestões acima, há um pdf extremamente útil - Coletas de texto de benchmarking para tarefas de classificação e cluster, que contém vários conjuntos de dados junto com os benchmarks para testar nossos modelos. Isso inclui 20ng Collection, Reuters e muitos dos conjuntos de dados sugeridos acima. Espero que ajude!

Hima Varsha
fonte