Eu gostaria de testar um novo algoritmo para filtragem colaborativa . Um caso de uso típico é recomendar filmes com base nas preferências de usuários semelhantes ao usuário específico.
Quais são alguns conjuntos de dados de referência comuns que os pesquisadores costumam usar para testar seus algoritmos? Sei que na Computer Vision as pessoas costumam usar MNIST ou CIFAR, mas não encontrei conjuntos de dados semelhantes para filtragem colaborativa.
Respostas:
A resposta óbvia seria o conjunto de dados do prêmio Netflix, há muita pesquisa e a maioria dos algoritmos de CF possui pontuações conhecidas.
Existem outros conjuntos de dados disponíveis que geralmente são usados como benchmarks:
Conjunto de dados de lentes de filme : um conjunto de dados de 20 milhões de classificações usado para comparar algoritmos de CF;
Jester Dataset : um conjunto de dados de recomendação de brincadeira com mais de 6 milhões de classificações;
Você pode encontrar muito mais conjuntos de dados neste link
fonte
Eu tenho um repositório que poderia ajudá-lo.
https://github.com/ArthurFortes/Datasets-for-Recommneder-Systems/
fonte