Significado de recursos latentes?

24

Estou aprendendo sobre fatoração matricial para sistemas de recomendação e estou vendo o termo latent featuresocorrer com muita frequência, mas não consigo entender o que isso significa. Eu sei o que é um recurso, mas não entendo a idéia de recursos latentes. Poderia explicar isso? Ou pelo menos me aponte para um jornal / local onde eu possa ler sobre isso?

Jack Twain
fonte
Variáveis ​​latentes permitem tornar os modelos mais poderosos em termos do que pode ser modelado. Cabe aos dados e ao algoritmo definir seu valor. Em outras palavras, as variáveis ​​latentes são como "etapa" que preenchem a lacuna entre as variáveis ​​observadas e a previsão desejada. Quanto maior essa "lacuna", mais úteis são as variáveis ​​latentes.
Vladislavs Dovgalecs

Respostas:

25

À custa da simplificação excessiva, os recursos latentes são recursos "ocultos" para distingui-los dos recursos observados. Os recursos latentes são calculados a partir dos recursos observados usando a fatoração da matriz. Um exemplo seria a análise de documentos de texto. 'palavras' extraídas dos documentos são características. Se você fatorar os dados das palavras, poderá encontrar 'tópicos', em que 'tópico' é um grupo de palavras com relevância semântica. A fatoração matricial de baixa classificação mapeia várias linhas (recursos observados) para um conjunto menor de linhas (recursos latentes). Para elaborar, o documento poderia ter observado características (palavras) como [veleiro, escuna, iate, navio a vapor, cruzador] que 'fatorariam' a característica latente (tópico) como 'navio' e 'barco'.

[veleiro, escuna, iate, navio a vapor, cruzador, ...] -> [navio, barco]

A idéia subjacente é que os recursos latentes são semanticamente relevantes 'agregados' de recursos observados. Quando você possui recursos observados em larga escala, alta dimensão e barulhentos, faz sentido criar seu classificador em recursos latentes.

É claro que esta é uma descrição simplificada para elucidar o conceito. Você pode ler os detalhes nos modelos de Alocação Direta Direta a Latente (LDA) ou Análise Semântica Latente probabilística (pLSA) para obter uma descrição precisa.

Poeira Estelar Dinâmica
fonte
"Recursos latentes são calculados a partir de recursos observados usando fatoração matricial". A computação usando a fatoração matricial é uma condição necessária para que uma quantidade seja considerada latente?
flow2k
5

Suponha que você tenha (MxN)matriz esparsa, onde M- representa o número de usuários que deram recomendações e Né o número de itens recomendados. O elemento da matriz é a recomendação dada, com alguns elementos ausentes, ou seja, a serem previstos.xij

Então sua matriz pode ser "fatorada", através da introdução de K"fatores latentes", de modo que, em vez de uma matriz, você tenha duas: - para (MxK)usuários e (KxN)- para itens, cuja multiplicação de matrizes produz a matriz original.

Finalmente, à sua pergunta: quais são as características latentes na fatoração matricial? Eles são recursos desconhecidos ( K) no gosto do usuário e itens recomendados, para que, quando essas duas matrizes se multipliquem, produzam uma matriz de recomendações conhecidas. Pesos específicos (das preferências do usuário em relação a um recurso em particular e a quantidade de um recurso em um item em particular) são definidos por meio do chamado item Alternando Mínimos Quadrados, mais sobre o que você pode ler aqui

Sergey Bushmanov
fonte
3

Parece-me que recursos latentes são um termo usado para descrever critérios para classificar entidades por sua estrutura, em outras palavras, por recursos (características) que eles contêm, em vez de classes às quais pertencem. O significado da palavra "latente" aqui é provavelmente semelhante ao seu significado nas ciências sociais, onde o termo muito popular variável latente ( http://en.wikipedia.org/wiki/Latent_variable ) significa variável não observável (conceito).

A seção "Introdução" no artigo a seguir fornece uma boa explicação do significado e uso das características latentes na modelagem dos fenômenos das ciências sociais: http://papers.nips.cc/paper/3846-nonparametric-latent-feature-models-for- link-prediction.pdf .

Aleksandr Blekh
fonte
Li a introdução no artigo que você referenciou, mas não achou muito útil para entender o conceito de recursos latentes.
Will
@ Will Will sinta-se livre para sugerir fonte (s) com melhor explicação.
Aleksandr Blekh
@ Will Obrigado. Eu concordo - é uma introdução / explicação muito boa (porém, tenho certeza de que existem muitas outras boas espalhadas por aí).
Aleksandr Blekh
1

Outro exemplo, considere o caso dos usuários na matriz de classificação de filmes, como a configuração da Netflix. Essa será uma enorme matriz esparsa e difícil de processar.

Observe que cada usuário terá uma preferência específica, como filmes de ficção científica ou romances, etc. Portanto, em vez de armazenar todas as classificações de filmes, poderíamos armazenar um único recurso latente, como a categoria de filme, que pertence a diferentes gêneros, por exemplo: ficção científica ou romance, o que quantificar seu gosto por cada categoria. Eles são chamados de Recursos latentes , que capturam a essência de seu gosto, em vez de armazenar a lista de filmes inteira.

Claro que isso será uma aproximação, mas, por outro lado, você tem muito pouco para armazenar.

Isso geralmente é feito usando técnicas de decomposição de matriz, como SVD, que divide uma matriz de recomendação de usuário em matriz de matriz de preferência de usuário e matriz de preferência de item , e a vantagem adicional é que, em vez de armazenar o número , efetivamente loja .N 1 1 N N 2 2 NNNN11NN22N

Sanjay
fonte