Por que a não-negatividade é importante para os sistemas de filtragem / recomendação colaborativos?

11

Em todos os sistemas modernos de recomendação que eu vi que dependem da fatoração de matriz, uma fatoração de matriz não negativa é realizada na matriz de filmes do usuário. Entendo por que a não-negatividade é importante para a interpretabilidade e / ou se você deseja fatores esparsos. Mas se você se importa apenas com o desempenho da previsão, como na competição de prêmios da netflix, por exemplo, por que impor a restrição da não-negatividade? Parece ser estritamente pior do que permitir valores negativos também na sua fatoração.

Este artigo é um exemplo altamente citado do uso de fatoração matricial não negativa na filtragem colaborativa.

Lembik
fonte
11
Não estou muito familiarizado com os sistemas de recomendação (talvez você possa incluir alguns documentos de exemplo em sua pergunta?). Se o padrão de preferência da NNMF que você deduz for verdadeiro, a resposta mais provável será melhorar a generalização. Em outras palavras, pode ser que empiricamente uma falta de "interpretabilidade / escassez" esteja associada a um ajuste excessivo . No entanto, a codificação esparsa (ou seja, regularização L1 / LASSO) também pode atender a esses requisitos, tanto quanto eu sei. (Pode ser NNMF tem maior facilidade de interpretação embora.)
GeoMatt22

Respostas:

14

Não sou especialista em sistemas de recomendação, mas, pelo que entendi, a premissa dessa pergunta está errada.

A não-negatividade não é tão importante para a filtragem colaborativa.

O prêmio Netflix foi ganho em 2009 pela equipe BellKor. Aqui está o artigo que descreve seu algoritmo: A Solução BellKor 2008 para o Prêmio Netflix . Como é fácil ver, eles usam uma abordagem baseada em SVD:

As bases de nosso progresso durante 2008 são apresentadas no documento KDD 2008 [4]. [...] No artigo [4], fornecemos uma descrição detalhada de três modelos de fatores. O primeiro é um simples SVD [...] O segundo modelo [...] nos referiremos a este modelo como "Asymmetric-SVD". Finalmente, o modelo de fator mais preciso, a ser nomeado "SVD ++" [...]

Veja também este artigo mais popular da mesma equipe Técnicas de fatoração de matriz para sistemas de recomendação . Eles falam muito sobre SVD, mas não mencionam NNMF.

Veja também este post popular do blog Atualização da Netflix: Experimente isso em casa desde 2006, também explicando as idéias de SVD.

Claro que você está certo e há algum trabalho sobre o uso do NNMF para filtragem colaborativa também. Então, o que funciona melhor, SVD ou NNMF? Não faço ideia, mas aqui está a conclusão de Um estudo comparativo de algoritmos de filtragem colaborativa de 2012:

Métodos baseados em fatoração de matriz geralmente têm a maior precisão. Especificamente, SVD, PMF regularizado e suas variações apresentam melhor desempenho no que se refere ao MAE e RMSE, exceto em situações muito esparsas, nas quais o NMF apresenta o melhor desempenho.

ameba
fonte
2
Em geral, esta é uma boa resposta. Mas apenas para corrigir alguns fatos, a solução BellKor 2008 ganhou o prêmio de progresso. O algoritmo geral vencedor foi uma mistura de mais de 100 preditores (Töscher et al. 2009). NMF também fazia parte disso.
precisa saber é o seguinte