Conjuntos de dados de referência para filtragem colaborativa

9

Eu gostaria de testar um novo algoritmo para filtragem colaborativa . Um caso de uso típico é recomendar filmes com base nas preferências de usuários semelhantes ao usuário específico.

Quais são alguns conjuntos de dados de referência comuns que os pesquisadores costumam usar para testar seus algoritmos? Sei que na Computer Vision as pessoas costumam usar MNIST ou CIFAR, mas não encontrei conjuntos de dados semelhantes para filtragem colaborativa.

dataset recommender-system pir
fonte

11

Você deu uma olhada no conjunto de dados do prêmio Netflix? Sim, a competição acabou e foi retirada do site oficial devido a alguns motivos de privacidade. Você ainda pode tentar encontrá-lo em outros locais.

Vladislavs Dovgalecs 23/03

Kaggle.com tem um monte. Basta procurar por 'recomendação em: conjunto de dados' ou 'recomendação em: competição'.

precisa saber é

8

A resposta óbvia seria o conjunto de dados do prêmio Netflix, há muita pesquisa e a maioria dos algoritmos de CF possui pontuações conhecidas.

Existem outros conjuntos de dados disponíveis que geralmente são usados como benchmarks:

Conjunto de dados de lentes de filme : um conjunto de dados de 20 milhões de classificações usado para comparar algoritmos de CF;
Jester Dataset : um conjunto de dados de recomendação de brincadeira com mais de 6 milhões de classificações;
Você pode encontrar muito mais conjuntos de dados neste link

João Almeida
fonte

1

Eu tenho um repositório que poderia ajudá-lo.

https://github.com/ArthurFortes/Datasets-for-Recommneder-Systems/

Arthur Fortes
fonte

3

Por favor, não poste respostas somente para links, as respostas devem ser independentes. Eu recomendo editar sua resposta para adicionar pelo menos algumas das informações que o link fornece e depois fornecê-lo para uma exploração mais aprofundada.

Mephy

Conjuntos de dados de referência para filtragem colaborativa

Respostas: