Um paralelo entre LSA e pLSA

9

No artigo original do pLSA, o autor, Thomas Hoffman, traça um paralelo entre as estruturas de dados do pLSA e do LSA que eu gostaria de discutir com você.

Fundo:

Inspirando-se na Recuperação de Informação, suponha que tenhamos uma coleção de documentos e um vocabulário de termosN

D={d1,d2,....,dN}
M
Ω={ω1,ω2,...,ωM}

Um corpus pode ser representado por uma matriz de co-ocorrênciasXN×M

Na Análise Semântica Latente por SVD, a matriz é fatorada em três matrizes: onde e são os valores singulares de e é o posto de .X

X=UΣVT
Σ=diag{σ1,...,σs}σiXsX

A aproximação LSA de é então calculada truncando as três matrizes para algum nível , como mostrado na figura:X = L Σ ^ V T k < sX

X^=U^Σ^VT^
k<s

insira a descrição da imagem aqui

No pLSA, escolha um conjunto fixo de tópicos (variáveis ​​latentes) a aproximação de é calculada como: onde as três matrizes são as que maximizam a probabilidade do modelo.X X = [ P ( d i | z k ) ] × [ d i a g ( P ( z k ) ] × [ P ( f j | z k ) ] TZ={z1,z2,...,zZ}X

X=[P(di|zk)]×[diag(P(zk)]×[P(fj|zk)]T

Pergunta real:

O autor afirma que essas relações subsistem:

  • U=[P(di|zk)]
  • Σ^=[diag(P(zk)]
  • V=[P(fj|zk)]

e que a diferença crucial entre LSA e pLSA é a função objetivo utilizada para determinar a decomposição / aproximação ideal.

Não tenho certeza de que ele esteja certo, pois acho que as duas matrizes representam conceitos diferentes: no LSA, é uma aproximação do número de vezes que um termo aparece em um documento e no pLSA é o (estimado ) probabilidade de um termo aparecer no documento.X^

Você pode me ajudar a esclarecer esse ponto?

Além disso, suponha que tenhamos calculado os dois modelos em um corpus, dado um novo documento , no LSA que eu uso para calcular sua aproximação como: d

d^=d×V×VT
  1. Isso é sempre válido?
  2. Por que não recebo resultados significativos aplicando o mesmo procedimento ao pLSA?
    d^=d×[P(fj|zk)]×[P(fj|zk)]T

Obrigado.

Aslan986
fonte

Respostas:

12

Por uma questão de simplicidade, estou fornecendo aqui a conexão entre LSA e fatoração matricial não negativa (NMF) e depois mostro como uma simples modificação da função de custo leva ao pLSA. Como afirmado anteriormente, LSA e pLSA são ambos métodos de fatoração no sentido de que, até a normalização das linhas e colunas, a decomposição de baixo escalão da matriz de termos do documento:

X=UΣD

usando notações anteriores. Mais simplesmente, o termo matriz do documento pode ser escrito como um produto de duas matrizes:

X=ABT

AN×sBM×sA=UΣB=VΣ

Uma maneira fácil de entender a diferença entre LSA e NMF é usar sua interpretação geométrica:

  • minA,BXABTF2,
  • NMF- é a solução de: L2

    minA0,B0XABTF2,
  • NMF-KL é equivalente a pLSA e é a solução de:

    minA0,B0KL(X||ABT).

onde é o Kullback-Leibler divergência entre as matrizes e . É fácil ver que todos os problemas acima não têm uma solução única, pois é possível multiplicar por um número positivo e dividir XYABAp(zk|di)XBp(fj|zk)AAp(di|zk)KL(X||Y)=ijxijlogxijyijXYABpelo mesmo número para obter o mesmo valor objetivo. Portanto, - no caso da LSA, as pessoas geralmente escolhem uma base ortogonal classificada pela diminuição dos autovalores. Isso é fornecido pela decomposição do SVD e identifica a solução LSA, mas qualquer outra opção seria possível, pois não tem impacto na maioria das operações (semelhança de cosseno, fórmula de suavização mencionada acima, etc.). - no caso de NMF, uma decomposição ortogonal não é possível, mas as linhas de geralmente são limitadas a somar uma, porque tem uma interpretação probabilística direta como . Se além disso, as linhas de são normalizadas (isto é, soma a um), então as linhas de devem somar a um, levando à interpretação probabilísticaAp(zk|di)XBp(fj|zk) . Há uma pequena diferença com a versão do pLSA dada na pergunta acima, porque as colunas de são restritas a somar uma, de modo que os valores em são , mas a diferença é apenas uma mudança de parametrização , o problema permanece o mesmo.AAp(di|zk)

Agora, para responder à pergunta inicial, há algo sutil na diferença entre LSA e pLSA (e outros algoritmos NMF): as restrições de não negatividade induzem um "efeito de agrupamento" que não é válido no caso clássico de LSA porque o Valor Singular A solução de decomposição é invariavelmente rotacional. As restrições da não-negatividade de alguma forma quebram essa invariância rotacional e fornecem fatores com algum tipo de significado semântico (tópicos em análise de texto). O primeiro artigo a explicar é:

Donoho, David L. e Victoria C. Stodden. "Quando a fatoração matricial não negativa fornece uma decomposição correta em partes?" Avanços nos sistemas de processamento de informações neurais 16: anais da conferência de 2003. MIT Press, 2004. [link]

Caso contrário, a relação entre PLSA e NMF é descrita aqui:

Ding, Chris, Tao Li e Wei Peng. "Sobre a equivalência entre fatoração matricial não negativa e indexação semântica latente probabilística". Estatística Computacional e Análise de Dados 52.8 (2008): 3913-3927. [ligação]

Guillaume
fonte