Considere o problema de filtragem colaborativa. Temos matriz de tamanho #users * #items. se o usuário gostar do item j, se o usuário não item j ese não houver dados sobre o par (i, j). Queremos prever para futuros pares de itens e usuários.
A abordagem de filtragem colaborativa padrão é representar M como produto de 2 matrizes modo que é mínimo (por exemplo, minimizando o erro quadrático médio para elementos conhecidos de M ).
Para mim, a função de perda logística parece mais adequada, por que todos os algoritmos estão usando o MSE?
Respostas:
Usamos a perda logística para fatoração matricial implícita no Spotify no contexto das recomendações musicais (usando contagens de reprodução). Acabamos de publicar um artigo sobre nosso método em um próximo workshop do NIPS 2014. O artigo é intitulado Fatorização de matriz logística para dados implícitos de feedback e pode ser encontrado aqui http://stanford.edu/~rezab/nips2014workshop/submits/logmat.pdf
O código do artigo pode ser encontrado no meu Github https://github.com/MrChrisJohnson/logistic-mf
fonte
A maioria dos trabalhos que você encontrará sobre o assunto trata de matrizes em que as classificações estão em escala [0,5]. No contexto do Prêmio Netflix, por exemplo, as matrizes têm classificações discretas de 1 a 5 (+ os valores ausentes). É por isso que o erro quadrado é a função de custo mais disperso. Algumas outras medidas de erro, como a divergência Kullback-Leibler, podem ser vistas.
Outro problema que pode ocorrer com a fatoração da matriz padrão é que alguns dos elementos das matrizes U e V podem ser negativos (particularmente durante os primeiros passos). Essa é uma razão pela qual você não usaria a perda de log aqui como sua função de custo.
No entanto, se você estiver falando sobre fatoração matricial não negativa, poderá usar a perda de log como sua função de custo. Você está em um caso semelhante ao da Regressão logística, onde a perda de log é usada como função de custo: seus valores observados são 0 e 1 e você prevê um número (probabilidade) entre 0 e 1.
fonte