Os componentes do PCA (na análise de componentes principais) são estatisticamente independentes se nossos dados são multivariados normalmente distribuídos? Se sim, como isso pode ser demonstrado / comprovado?
Pergunto porque vi este post , onde a resposta principal diz:
O PCA não faz uma suposição explícita de Gaussianity. Ele encontra os vetores próprios que maximizam a variação explicada nos dados. A ortogonalidade dos componentes principais significa que ele encontra os componentes mais não correlacionados para explicar o máximo possível de variação nos dados. Para distribuições gaussianas multivariadas, a correlação zero entre componentes implica independência, o que não é verdadeiro para a maioria das distribuições.
A resposta é declarada sem uma prova e parece implicar que o PCA produz componentes independentes se os dados forem multivariados normais.
Especificamente, digamos que nossos dados sejam exemplos de:
colocamos amostras de em linhas da nossa matriz de amostras , de modo que é . A computação do SVD de (depois da centralização) produzx X X n × m X
Podemos dizer que as colunas de são estatisticamente independentes, e também as linhas de ? Isso é verdade em geral, apenas para ou não é verdade?V T x ∼ N ( μ , Σ )
fonte
Respostas:
Vou começar com uma demonstração intuitiva.
Gerei observações (a) de uma distribuição 2D fortemente não-Gaussiana e (b) de uma distribuição Gaussiana 2D. Nos dois casos, centralizei os dados e realizei a decomposição do valor singular X = U S V ⊤ . Então, para cada caso, fiz um gráfico de dispersão das duas primeiras colunas de U , uma contra a outra. Note que é normalmente colunas de U S que são chamados "componentes principais" (PCs); colunas de U são PCs dimensionados para ter norma de unidade; Ainda, nesta resposta que eu estou focalizando em colunas de U . Aqui estão os gráficos de dispersão:n=100 X=USV⊤ U US U U
Eu acho que declarações como "componentes PCA não são correlacionados" ou "componentes PCA são dependentes / independentes" geralmente são feitas sobre uma matriz de amostra específica e se referem às correlações / dependências nas linhas (consulte, por exemplo, a resposta de @ ttnphns aqui ). O PCA produz uma matriz de dados transformada U , em que linhas são observações e colunas são variáveis de PC. Ou seja, podemos ver U como uma amostra e perguntar qual é a correlação da amostra entre as variáveis do PC. Esta matriz de correlação de amostra é obviamente dada por U ⊤ U = IX U U U⊤U=I , o que significa que as correlações da amostra entre as variáveis do PC são zero. É isso que as pessoas querem dizer quando dizem que "o PCA diagonaliza a matriz de covariância" etc.
Conclusão 1: nas coordenadas do PCA, qualquer dado tem correlação zero.
Isso vale para os dois gráficos de dispersão acima. No entanto, é imediatamente óbvio que as duas variáveis PC e y no (non-Gaussian) scatterplot esquerda não são independentes; mesmo tendo correlação zero, eles são fortemente dependentes e de fato relacionados por a y ≈ a ( x - b ) 2 . E, de fato, é sabido que não correlacionado não significa independente .x y y≈a(x−b)2
Pelo contrário, as duas variáveis PC e y à direita (Gaussian) scatterplot parecem ser "praticamente independente". Computar informações mútuas entre elas (que é uma medida de dependência estatística: variáveis independentes têm zero informações mútuas) por qualquer algoritmo padrão produzirá um valor muito próximo de zero. Não será exatamente zero, porque nunca é exatamente zero para qualquer tamanho de amostra finito (a menos que ajustado); além disso, existem vários métodos para calcular informações mútuas de duas amostras, fornecendo respostas ligeiramente diferentes. Mas podemos esperar que qualquer método produza uma estimativa de informações mútuas que seja muito próxima de zero.x y
Conclusão 2: nas coordenadas do PCA, os dados gaussianos são "praticamente independentes", o que significa que as estimativas padrão de dependência serão em torno de zero.
A questão, no entanto, é mais complicada, como mostra a longa cadeia de comentários. Com efeito, @whuber justamente salienta que as variáveis PCA e y (colunas de L ) deve ser estatisticamente dependente: as colunas têm de ter um comprimento de unidade e tem que ser ortogonais, e isto introduz uma dependência. Por exemplo, se algum valor na primeira coluna for igual a 1 , o valor correspondente na segunda coluna deverá ser 0 .x y U 1 0
Isso é verdade, mas é praticamente relevante apenas para muito pequeno , como, por exemplo, n = 3 (com n = 2 após a centralização, existe apenas um PC). Para qualquer tamanho de amostra razoável, como n = 100 mostrado na minha figura acima, o efeito da dependência será insignificante; colunas de U são projeções (em escala) de dados gaussianos, portanto também são gaussianas, o que torna praticamente impossível que um valor esteja próximo de 1 (isso exigiria que todos os outros elementos n - 1 estivessem próximos de 0 , o que dificilmente é distribuição gaussiana).n n=3 n=2 n=100 U 1 n−1 0
Conclusão 3: estritamente falando, para qualquer finito , os dados Gaussianos nas coordenadas do PCA são dependentes; no entanto, essa dependência é praticamente irrelevante para qualquer n ≫ 1 .n n≫1
Podemos fazer isso preciso considerando o que acontece no limite de . No limite do tamanho infinito da amostra, a matriz de covariância da amostra é igual à matriz de covariância da população Σ . Portanto, se o vetor de dados X for amostrado de → X ∼ N ( 0 , Σ ) , as variáveis do PC serão (onde e são autovalores e autovetores de ) en→∞ Σ X X⃗ ∼N(0,Σ) ΛVΣ → Y ~N(0,I/(n-1))Y⃗ =Λ−1/2V⊤X⃗ /(n−1) Λ V Σ Y⃗ ∼N(0,I/(n−1)) . Ou seja, as variáveis de PC vêm de um gaussiano multivariado com covariância diagonal. Mas qualquer gaussiano multivariado com matriz de covariância diagonal se decompõe em um produto de gaussianos univariados, e esta é a definição de independência estatística :
Conclusão 4: as variáveis PC assintoticamente ( ) dos dados gaussianos são estatisticamente independentes como variáveis aleatórias, e as informações mútuas da amostra fornecerão o valor da população zero.n→∞
Devo observar que é possível entender essa questão de maneira diferente (veja os comentários de @whuber): considerar toda a matriz uma variável aleatória (obtida da matriz aleatória através de uma operação específica) e perguntar se existem duas elementos específicos e a partir de duas colunas diferentes são estatisticamente independentes entre diferente de chama . Exploramos essa questão neste tópico posterior .U X Uij Ukl X
Aqui estão as quatro conclusões provisórias acima:
fonte