PCA e proporção de variância explicada

90

Em geral, o que se quer dizer com dizer que a fração da variação em uma análise como PCA é explicada pelo primeiro componente principal? Alguém pode explicar isso intuitivamente, mas também fornecer uma definição matemática precisa do que "variação explicada" significa em termos de análise de componentes principais (PCA)?x

Para regressão linear simples, o quadrado r da linha de melhor ajuste é sempre descrito como a proporção da variação explicada, mas também não sei o que fazer disso. A proporção de variação aqui é apenas a extensão do desvio de pontos da linha de melhor ajuste?

user9097
fonte

Respostas:

104

No caso de PCA, "variação" significa variação somativa ou variabilidade multivariada ou variabilidade geral ou variabilidade total . Abaixo está a matriz de covariância de cerca de 3 variáveis. Suas variações estão na diagonal e a soma dos 3 valores (3.448) é a variabilidade geral.

   1.343730519   -.160152268    .186470243 
   -.160152268    .619205620   -.126684273 
    .186470243   -.126684273   1.485549631

Agora, o PCA substitui as variáveis ​​originais por novas variáveis, chamadas componentes principais, ortogonais (ou seja, com zero covariações) e com variações (chamadas autovalores) em ordem decrescente. Portanto, a matriz de covariância entre os principais componentes extraídos dos dados acima é esta:

   1.651354285    .000000000    .000000000 
    .000000000   1.220288343    .000000000 
    .000000000    .000000000    .576843142

Observe que a soma diagonal ainda é 3.448, o que indica que todos os três componentes são responsáveis ​​por toda a variabilidade multivariada. O 1º componente principal responde ou "explica" 1,651 / 3,448 = 47,9% da variabilidade geral; o segundo explica 1.220 / 3.448 = 35,4%; o terceiro explica 0,577 / 3,448 = 16,7%.

Então, o que eles querem dizer quando dizem que " PCA maximiza a variação " ou " PCA explica a variação máxima "? Naturalmente, isso não significa que ele encontre a maior variação entre três valores 1.343730519 .619205620 1.485549631, não. O PCA localiza, no espaço de dados, a dimensão (direção) com a maior variação da variação geral1.343730519+.619205620+1.485549631 = 3.448 . Essa maior variação seria 1.651354285. Em seguida, encontra a dimensão da segunda maior variação, ortogonal à primeira, da 3.448-1.651354285variação geral restante . Essa segunda dimensão seria 1.220288343variação. E assim por diante. A última dimensão restante é a .576843142variação. Veja também "Pt3" aqui e a grande resposta aqui explicando como foi feito com mais detalhes.

Matematicamente, o PCA é realizado por meio de funções de álgebra linear denominadas decomposição de eigen ou decomposição de svd. Essas funções retornarão todos os autovalores 1.651354285 1.220288343 .576843142(e os autovetores correspondentes) de uma vez ( veja , consulte ).

ttnphns
fonte
11
O que você quer dizer com: "Observe que a soma diagonal ainda é 3.448, que diz que todos os três componentes respondem por toda a variabilidade multivariada" e qual é a diferença entre o seu método e o PoV (proporção de variação)?
kamaci
2
Eu não sugiro nenhum "método". Acabei de explicar que todos os PCs representam a mesma quantidade total de variabilidade que as variáveis ​​originais.
ttnphns
Você pode verificar a minha pergunta: stats.stackexchange.com/questions/44464/...
kamaci
Sinto muito :-( Eu atualmente não podem Existem muitos comentários para sintonizar..
ttnphns
11
se você acabou de ler a pergunta, é suficiente. Não há nada nos comentários.
Kamaci
11

@ttnphns forneceu uma boa resposta, talvez eu possa adicionar alguns pontos. Primeiro, quero ressaltar que havia uma pergunta relevante no currículo, com uma resposta muito forte - você definitivamente quer dar uma olhada. A seguir, vou me referir aos gráficos mostrados nessa resposta.

Todos os três gráficos exibem os mesmos dados. Observe que há variabilidade nos dados vertical e horizontalmente, mas podemos pensar na maior parte da variabilidade como sendo na verdade diagonal . No terceiro gráfico, essa longa linha diagonal preta é o primeiro vetor próprio (ou o primeiro componente principal) e o comprimento desse componente principal (a propagação dos dados ao longo dessa linha - e não o comprimento da linha propriamente dita. é apenas desenhado no gráfico) é o primeiro valor próprio- é a quantidade de variação contabilizada pelo primeiro componente do princípio. Se você somasse esse comprimento com o comprimento do segundo componente principal (que é a largura da propagação dos dados ortogonalmente a partir dessa linha diagonal) e depois dividisse qualquer um dos autovalores por esse total, obteria a porcentagem da variação contabilizada pelo componente principal correspondente.

Por outro lado, para entender a porcentagem da variação contabilizada na regressão, você pode olhar para o gráfico superior. Nesse caso, a linha vermelha é a linha de regressão ou o conjunto dos valores previstos do modelo. A variância explicada pode ser entendida como a razão entre a dispersão vertical da linha de regressão (ou seja, do ponto mais baixo da linha até o ponto mais alto da linha) e a dispersão vertical dos dados (ou seja, do ponto de dados mais baixo para o ponto de dados mais alto). Obviamente, isso é apenas uma ideia solta, porque literalmente esses são intervalos, não variações, mas isso deve ajudá-lo a entender o ponto.

Certifique-se de ler a pergunta. E, embora eu tenha me referido à resposta principal, várias respostas são excelentes. Vale a pena ler todos eles.

ung
fonte
3

Há uma resposta matemática muito simples, direta e precisa à pergunta original.

Y1Y2YpRi2

a1a2apPC1=a1Y1+a2Y2++apYpi=1pRi2(Yi|PC1)

Nesse sentido, você pode interpretar o primeiro PC como um maximizador de "variação explicada" ou, mais precisamente, um maximizador de "variação total explicada".

bi=c×aic0

Para referências à literatura original e extensões, consulte

Westfall, PH, Arias, AL e Fulton, LV (2017). Ensino de componentes principais usando correlações, Pesquisa Comportamental Multivariada, 52, 648-660.

Peter Westfall
fonte
0

Y=A+BYABYABYABvar(Y)=var(A)+var(B)+2cov(A,B)Ab0+b1XBeY=b0+b1X+eYb0+b1X

Y

Jovem
fonte
Você deve verificar sua fórmula quanto à variação de Y: não está correto. Mais importante, porém, a tentativa de uma explicação de regressão não caracteriza corretamente o PCA nem as maneiras pelas quais as pessoas pensam e o usam.
whuber
11
Ty, erro corrigido na fórmula. Minha resposta é para a segunda parte da pergunta sobre a proporção de variância explicada pela linha de regressão.
Jovem