Por que o PCA probabilístico usa variáveis ​​gaussianas anteriores sobre variáveis ​​latentes?

8

Atualmente, estou lendo artigos sobre PCA probabilístico e me pergunto por que o prior gaussiano (e não outro prior) é escolhido para as variáveis ​​latentes? É apenas porque é simples ou há outro motivo?

Referências:

Irminsul
fonte

Respostas:

4

PCA probabilístico

O PCA probabilístico é um modelo de variável latente gaussiana do seguinte formulário. Observações consistem em variáveis , variáveis ​​latentes são assumidas como consistindo em variáveis; as variáveis ​​anteriores sobre latentes são uma covariância de unidade zero com média zero Gaussiana: e a distribuição condicional das variáveis ​​observadas, dadas as variáveis ​​latentes, é Acontece que a solução de máxima verossimilhança para esse modelo é fornecida pelos primeiros componentes PCA dos dados: colunas de D zR M M < D zN ( 0 , I ) ,xRDDzRMM<D

zN(0,I),
x|zN(Wz+μ,σ2I).
MWML são proporcionais aos principais vetores próprios da matriz de covariância (eixos principais). Veja Tipping & Bishop para detalhes.

Por que usar Gaussian antes?

  1. Para qualquer outro anterior (ou pelo menos para a maioria dos outros anteriores), a solução de máxima verossimilhança não corresponderá à solução padrão de PCA, portanto não haveria razão para chamar esse modelo de variável latente de "PCA probabilístico". Gaussian priori é o que dá origem ao PCA.N(0,I)

  2. A maioria dos outros anteriores tornaria o problema muito mais complicado ou até intratável analiticamente. Ter uma distribuição condicional gaussiana anterior e gaussiana leva à distribuição marginal gaussiana , e é fácil ver que sua matriz de covariância será dada por . As distribuições não gaussianas são muito mais difíceis de trabalhar.p(x)WW+σ2I

  3. Ter distribuição marginal gaussiana também é atraente porque a tarefa do PCA padrão é modelar a matriz de covariância (isto é, o segundo momento); O PCA não está interessado em momentos mais altos da distribuição de dados. A distribuição gaussiana é completamente descrita pelos dois primeiros momentos: média e covariância. Não queremos usar distribuições mais complicadas / flexíveis, porque o PCA não está lidando com esses aspectos dos dados.p(x)

  4. O anterior tem Gaussiana matriz covariância unidade porque a ideia é ter variáveis não correlacionadas latentes que originam as covariâncias observados apenas através de cargas de .W

ameba
fonte
Obrigado ! Está realmente claro! Quanto ao primeiro ponto, concordo, mas parece ser uma resposta à pergunta 'Por que esse modelo é chamado de PPCA?' Os pontos 2 a 4 são exatamente o que eu esperava; eu deveria ter transformado a pergunta em 'Quais são os benefícios de ter um gaussiano antes?'
Irminsul 13/01