Conjuntos de dados de referência para filtragem colaborativa

9

Eu gostaria de testar um novo algoritmo para filtragem colaborativa . Um caso de uso típico é recomendar filmes com base nas preferências de usuários semelhantes ao usuário específico.

Quais são alguns conjuntos de dados de referência comuns que os pesquisadores costumam usar para testar seus algoritmos? Sei que na Computer Vision as pessoas costumam usar MNIST ou CIFAR, mas não encontrei conjuntos de dados semelhantes para filtragem colaborativa.

pir
fonte
11
Você deu uma olhada no conjunto de dados do prêmio Netflix? Sim, a competição acabou e foi retirada do site oficial devido a alguns motivos de privacidade. Você ainda pode tentar encontrá-lo em outros locais.
Vladislavs Dovgalecs 23/03
Kaggle.com tem um monte. Basta procurar por 'recomendação em: conjunto de dados' ou 'recomendação em: competição'.
precisa saber é

Respostas:

8

A resposta óbvia seria o conjunto de dados do prêmio Netflix, há muita pesquisa e a maioria dos algoritmos de CF possui pontuações conhecidas.

Existem outros conjuntos de dados disponíveis que geralmente são usados ​​como benchmarks:

João Almeida
fonte
1

Eu tenho um repositório que poderia ajudá-lo.

https://github.com/ArthurFortes/Datasets-for-Recommneder-Systems/

Arthur Fortes
fonte
3
Por favor, não poste respostas somente para links, as respostas devem ser independentes. Eu recomendo editar sua resposta para adicionar pelo menos algumas das informações que o link fornece e depois fornecê-lo para uma exploração mais aprofundada.
Mephy