Por que a esfericidade diagnosticada pelo teste de Bartlett significa que um PCA é inadequado?

14

Entendo que o Teste de Bartlett se preocupa em determinar se suas amostras são de populações com variações iguais.

Se as amostras são de populações com variâncias iguais, falhamos em rejeitar a hipótese nula do teste e, portanto, uma análise de componentes principais é inadequada.

Não tenho certeza de onde está o problema com esta situação (ter um conjunto de dados homoskedastic). Qual é o problema de ter um conjunto de dados em que a distribuição subjacente de todos os seus dados seja a mesma? Só não vejo grande coisa se essa condição existir. Por que isso tornaria um PCA inadequado?

Não consigo encontrar nenhuma informação boa em nenhum lugar online. Alguém tem alguma experiência em interpretação por que esse teste é relevante para um PCA?

Matt O'Brien
fonte

Respostas:

15

Em resposta ao título da pergunta.

1

Imagine agora que a nuvem multivariada é perfeitamente esférica (ou seja, sua matriz de covariância é proporcional à matriz de identidade). Então 1) quaisquer dimensões arbitrárias podem servir os componentes principais, portanto a solução PCA não é única; 2) todos os componentes têm as mesmas variações (valores próprios), portanto, o PCA não pode ajudar a reduzir os dados.

Imagine o segundo caso em que a nuvem multivariada é elipsóide com oblongo estritamente ao longo dos eixos das variáveis ​​(ou seja, sua matriz de covariância é diagonal: todos os valores são zero, exceto a diagonal). Então a rotação implicada pela transformação do PCA será zero; componentes principais são as próprias variáveis, apenas reordenadas e potencialmente revertidas. Este é um resultado trivial: nenhum PCA foi necessário para descartar algumas dimensões fracas para reduzir os dados.


1

ttnphns
fonte
13

Parece que existem dois testes chamados teste de Bartlett . O que você referenciou (1937) determina se suas amostras são de populações com variações iguais. Outra parece testar se a matriz de correlação para um conjunto de dados é a matriz de identidade (1951). Faz mais sentido que você não execute o PCA em dados com uma matriz de correlação de identidade, pois apenas recuperará suas variáveis ​​originais, pois elas já não estão correlacionadas. Compare, por exemplo,

user42628
fonte
2
+1 Isso resolve as confusões melhor que a outra resposta.
HelloWorld