Desejo usar o Critério de informações de Akaike (AIC) para escolher o número apropriado de fatores a serem extraídos em um PCA. O único problema é que não tenho certeza de como determinar o número de parâmetros.
Considere uma matriz , em que representa o número de variáveis e o número de observações, de modo que . Como a matriz de covariância é simétrica, uma estimativa de probabilidade máxima de poderia definir o número de parâmetros na AIC igual a .
Alternativamente, em um PCA, você poderia extrair os primeiros autovetores e autovalores de , chamá-los e e depois calcular onde é a variação residual média. De acordo com a minha contagem, se você tiver fatores de f , você terá parâmetros f em \ Lambda_ {f} , parâmetros Nf em \ beta_ {f} e 1 parâmetro em \ sigma_ {r} ^ {2} .
Essa abordagem está correta? Parece que levaria a mais parâmetros do que a abordagem de probabilidade máxima como o número de factores aumenta para .
fonte
Respostas:
Os trabalhos de Minka ( Escolha automática de dimensionalidade para PCA , 2000) e de Tipping & Bishop ( Análise probabilística de componentes principais ) a respeito de uma visão probabilística do PCA podem fornecer a estrutura de seu interesse. O trabalho de Minka fornece uma aproximação do log- probabilidade onde é a dimensionalidade latente do seu conjunto de dados usando uma aproximação de Laplace; como declarado explicitamente: " Uma simplificação do método de Laplace é a aproximação BIC " .logp(D|k) k D
Claramente, isso leva a um ponto de vista bayesiano do seu problema que não se baseia nos critérios da teoria da informação (divergência de KL) usados pela AIC.
Com relação à pergunta original "determinação do número de parâmetros", também acho que o comentário do @ whuber carrega a intuição correta.
fonte
A seleção de um número "apropriado" de componentes no PCA pode ser executada com elegância com a Análise Paralela (PA) da Horn. Os documentos mostram que esse critério supera consistentemente as regras práticas, como o critério do cotovelo ou a regra de Kaiser. O pacote R "paran" possui uma implementação de PA que requer apenas alguns cliques do mouse.
Obviamente, quantos componentes você retém dependem dos objetivos da redução de dados. Se você deseja apenas manter a variação "significativa", o PA fornecerá uma redução ideal. Se você deseja minimizar a perda de informações dos dados originais, no entanto, você deve reter componentes suficientes para cobrir 95% da variação explicada. Obviamente, isso manterá muito mais componentes que o PA, embora para conjuntos de dados de alta dimensão, a redução de dimensionalidade ainda seja considerável.
Uma observação final sobre o PCA como um problema de "seleção de modelo". Não concordo plenamente com a resposta de Peter. Vários documentos reformularam o PCA como um problema do tipo regressão, como o Sparse PCA, o Sparse Probabilistic PCA ou o ScotLASS. Nestas soluções PCA "baseadas em modelo", as cargas são parâmetros que podem ser configurados para 0 com termos de penalidade apropriados. Presumivelmente, nesse contexto, também seria possível calcular estatísticas do tipo AIC ou BIC para o modelo em consideração.
Essa abordagem poderia, teoricamente, incluir um modelo em que, por exemplo, dois PCs sejam irrestritos (todas as cargas diferentes de zero), versus um modelo em que PC1 é irrestrita e PC2 tenha todas as cargas definidas como 0. Isso seria equivalente a inferir se o PC2 é redundante no todo.
Referências (PA) :
fonte
AIC é projetado para seleção de modelo. Este não é realmente um problema de seleção de modelo e talvez seja melhor seguir uma abordagem diferente. Uma alternativa poderia ser especificar uma certa porcentagem total de variação explicada (como, por exemplo, 75%) e parar quando a porcentagem atingir 75%, se alguma vez ocorrer.
fonte
AIC não é apropriado aqui. Você não está selecionando entre modelos com números variáveis de parâmetros - um componente principal não é um parâmetro.
Existem vários métodos para decidir o número de fatores ou componentes de uma análise fatorial ou análise de componentes principais - teste de scree, valor próprio> 1 etc. Mas o teste real é substantivo: que número de fatores faz sentido ? Observe os fatores, considere os pesos e descubra qual é o mais adequado para seus dados.
Como outras coisas nas estatísticas, isso não é algo que pode ser facilmente automatizado.
fonte