Perguntas sobre PCA: quando os PCs são independentes? por que o PCA é sensível ao dimensionamento? por que os PCs são restritos a serem ortogonais?

11

Estou tentando entender algumas descrições do PCA (os dois primeiros são da Wikipedia), ênfase adicionada:

Os componentes principais são garantidos como independentes apenas se o conjunto de dados for normalmente distribuído em conjunto .

A independência dos principais componentes é muito importante? Como posso entender essa descrição?

O PCA é sensível à escala relativa das variáveis ​​originais.

O que significa 'dimensionamento' lá? Normalização de diferentes dimensões?

A transformação é definida de tal maneira que o primeiro componente principal tenha a maior variação possível e cada componente subsequente, por sua vez, tenha a maior variação sob a restrição de que seja ortogonal aos componentes anteriores .

Você pode explicar essa restrição?

kakanana
fonte
3
O nº 2 aplica-se apenas se o PCA for executado por recomposição automática da matriz de covariância. Se for realizado por uma composição independente da matriz de correlação, o PCA é insensível ao dimensionamento.
Alexis3
@ Alexis Obrigado por sua postagem. Para o número 2, você se importaria de explicar o que significa o 'escalonamento'? a mudança dinâmica da dimensão correspondente dos dados?
Kakanana
1
"Escala" pode significar algumas coisas. (1) Pode significar transformações lineares dos dados , como , em que e ; ou (2) que as variáveis ​​individuais em são todas medidas na mesma escala e possuem variações de tamanho aproximado. Meu comentário se aplica a esses dois significados. X = a + b X - < a < 0 < b < XXX=uma+bX-<uma<0 0<b<X
Alexis #

Respostas:

19

Q1 Os principais componentes são variáveis mutuamente ortogonais (não correlacionadas). Ortogonalidade e independência estatística não são sinônimos . Não há nada de especial nos componentes principais; o mesmo se aplica a quaisquer variáveis ​​na análise de dados multivariada. Se os dados são normais multivariados (o que não é o mesmo que afirmar que cada uma das variáveis ​​é univariada normal) e as variáveis ​​não são correlacionadas, então sim, elas são independentes. Se a independência dos componentes principais é importante ou não - depende de como você os usará. Muitas vezes, sua ortogonalidade é suficiente.

Q2 Sim, escalar significa reduzir ou esticar a variação de variáveis ​​individuais. As variáveis ​​são as dimensões do espaço em que os dados se encontram. Os resultados do PCA - os componentes - são sensíveis à forma da nuvem de dados, à forma desse "elipsóide". Se você centralizar apenas as variáveis, deixe as variações como estão, isso geralmente é chamado de "PCA baseado em covariâncias". Se você também padronizar as variáveis ​​para variações = 1, isso geralmente é chamado de "PCA baseado em correlações" e pode ser muito diferente do anterior (consulte um encadeamento ). Além disso, relativamente raramente as pessoas fazem PCA em dados não centralizados: dados brutos ou apenas dimensionados para a magnitude da unidade; os resultados desse PCA são muito diferentes de onde você centraliza os dados (veja a figura ).

Q3 A "restrição" é como o PCA funciona (consulte uma enorme discussão ). Imagine que seus dados são nuvem tridimensional (3 variáveis, pontos); a origem é definida no centróide (a média) dele. O PCA desenha o componente1 como tal eixo através da origem, a soma das projeções quadradas (coordenadas) nas quais é maximizada ; isto é, a variação ao longo do componente1 é maximizada. Depois que o componente1 é definido, ele pode ser removido como uma dimensão, o que significa que os pontos de dados são projetados no plano ortogonal a esse componente. Você fica com uma nuvem bidimensional. Então, novamente, você aplica o procedimento acima para encontrar o eixo da máximap p - 1nvariação - agora nesta nuvem 2D remanescente. E isso será component2. Você remove o componente desenhado2 do plano projetando pontos de dados na linha ortogonal a ele. Essa linha, representando a nuvem 1D remanescente, é definida como o último componente, componente 3. Você pode ver que em cada uma dessas 3 "etapas", a análise a) encontrou a dimensão da maior variância no espaço dimensional atual , b) reduziu os dados às dimensões sem essa dimensão, ou seja, ao espaço dimensional ortogonal à dimensão mencionada. É assim que acontece que cada componente principal é uma "variação máxima" e todos os componentes são mutuamente ortogonais (veja também ).pp-1

[ PS Observe que "ortogonal" significa duas coisas: (1) eixos variáveis ​​como eixos fisicamente perpendiculares; (2) variáveis ​​não correlacionadas por seus dados. Com o PCA e alguns outros métodos multivariados, essas duas coisas são a mesma coisa. Porém, com algumas outras análises (por exemplo, análise discriminante), variáveis ​​latentes extraídas não correlacionadas não significam automaticamente que seus eixos são perpendiculares no espaço original.]

ttnphns
fonte
+1 (há muito tempo). Os futuros leitores também podem querer ler as respostas para essa pergunta: Por que os principais componentes do PCA (vetores próprios da matriz de covariância) são mutuamente ortogonais? - está marcado como duplicado, mas contém algumas respostas úteis.
Ameba
@ttnphns No PS, você escreveu "essas duas coisas são a mesma coisa". Acho o fraseado um tanto confuso. Se eu penso no PCA como uma mudança de base, dizer que a nova base é ortogonal não é o mesmo que dizer que os novos recursos (ou seja, após a mudança de base) não são correlacionados (talvez eu possa encontrar outra base ortogonal de modo que os novos recursos sejam correlacionados). Percebo que o PCA garante que os PCs não estão correlacionados e que os eixos principais são ortogonais, mas por que essas coisas são iguais?
Oren Milman
@ttnphns também, talvez seja útil vincular a esta resposta ? Ele me ajudou a limpar alguma confusão em relação a ortogonalidade vs uncorrelation de variáveis aleatórias, como de acordo com algumas definições que são as mesmas, e de acordo com algumas definições que são os mesmos apenas para as variáveis centradas ..
Oren Milman
@ orenmn, obrigado por seus comentários sobre ortogonalidade. Na minha nota de rodapé, no entanto, eu estava falando sobre ortogonalidade de eixos , não de vetores de dados. Por favor, siga o link que eu dei para demonstrar.
ttnphns