Estou aprendendo sobre fatoração matricial para sistemas de recomendação e estou vendo o termo latent features
ocorrer com muita frequência, mas não consigo entender o que isso significa. Eu sei o que é um recurso, mas não entendo a idéia de recursos latentes. Poderia explicar isso? Ou pelo menos me aponte para um jornal / local onde eu possa ler sobre isso?
machine-learning
data-mining
recommender-system
Jack Twain
fonte
fonte
Respostas:
À custa da simplificação excessiva, os recursos latentes são recursos "ocultos" para distingui-los dos recursos observados. Os recursos latentes são calculados a partir dos recursos observados usando a fatoração da matriz. Um exemplo seria a análise de documentos de texto. 'palavras' extraídas dos documentos são características. Se você fatorar os dados das palavras, poderá encontrar 'tópicos', em que 'tópico' é um grupo de palavras com relevância semântica. A fatoração matricial de baixa classificação mapeia várias linhas (recursos observados) para um conjunto menor de linhas (recursos latentes). Para elaborar, o documento poderia ter observado características (palavras) como [veleiro, escuna, iate, navio a vapor, cruzador] que 'fatorariam' a característica latente (tópico) como 'navio' e 'barco'.
[veleiro, escuna, iate, navio a vapor, cruzador, ...] -> [navio, barco]
A idéia subjacente é que os recursos latentes são semanticamente relevantes 'agregados' de recursos observados. Quando você possui recursos observados em larga escala, alta dimensão e barulhentos, faz sentido criar seu classificador em recursos latentes.
É claro que esta é uma descrição simplificada para elucidar o conceito. Você pode ler os detalhes nos modelos de Alocação Direta Direta a Latente (LDA) ou Análise Semântica Latente probabilística (pLSA) para obter uma descrição precisa.
fonte
Suponha que você tenhaxeu j
(MxN)
matriz esparsa, ondeM
- representa o número de usuários que deram recomendações eN
é o número de itens recomendados. O elemento da matriz é a recomendação dada, com alguns elementos ausentes, ou seja, a serem previstos.Então sua matriz pode ser "fatorada", através da introdução de
K
"fatores latentes", de modo que, em vez de uma matriz, você tenha duas: - para(MxK)
usuários e(KxN)
- para itens, cuja multiplicação de matrizes produz a matriz original.Finalmente, à sua pergunta: quais são as características latentes na fatoração matricial? Eles são recursos desconhecidos (
K
) no gosto do usuário e itens recomendados, para que, quando essas duas matrizes se multipliquem, produzam uma matriz de recomendações conhecidas. Pesos específicos (das preferências do usuário em relação a um recurso em particular e a quantidade de um recurso em um item em particular) são definidos por meio do chamado item Alternando Mínimos Quadrados, mais sobre o que você pode ler aquifonte
Parece-me que recursos latentes são um termo usado para descrever critérios para classificar entidades por sua estrutura, em outras palavras, por recursos (características) que eles contêm, em vez de classes às quais pertencem. O significado da palavra "latente" aqui é provavelmente semelhante ao seu significado nas ciências sociais, onde o termo muito popular variável latente ( http://en.wikipedia.org/wiki/Latent_variable ) significa variável não observável (conceito).
A seção "Introdução" no artigo a seguir fornece uma boa explicação do significado e uso das características latentes na modelagem dos fenômenos das ciências sociais: http://papers.nips.cc/paper/3846-nonparametric-latent-feature-models-for- link-prediction.pdf .
fonte
Outro exemplo, considere o caso dos usuários na matriz de classificação de filmes, como a configuração da Netflix. Essa será uma enorme matriz esparsa e difícil de processar.
Observe que cada usuário terá uma preferência específica, como filmes de ficção científica ou romances, etc. Portanto, em vez de armazenar todas as classificações de filmes, poderíamos armazenar um único recurso latente, como a categoria de filme, que pertence a diferentes gêneros, por exemplo: ficção científica ou romance, o que quantificar seu gosto por cada categoria. Eles são chamados de Recursos latentes , que capturam a essência de seu gosto, em vez de armazenar a lista de filmes inteira.
Claro que isso será uma aproximação, mas, por outro lado, você tem muito pouco para armazenar.
Isso geralmente é feito usando técnicas de decomposição de matriz, como SVD, que divide uma matriz de recomendação de usuário em matriz de matriz de preferência de usuário e matriz de preferência de item , e a vantagem adicional é que, em vez de armazenar o número , efetivamente loja .N ∗ 1 1 ∗ N N 2 2 NN∗N N∗1 1∗N N2 2N
fonte