Estou usando FactoMineR
para reduzir meu conjunto de dados de medidas para as variáveis latentes.
O mapa variável acima é claro para mim interpretar, mas estou confuso quando se trata das associações entre as variáveis e componente 1. Olhando o mapa variável, ddp
e cov
está muito perto do componente no mapa, e ddpAbs
é um pouco mais longe. Mas, não é isso que as correlações mostram:
$Dim.1
$Dim.1$quanti
correlation p.value
jittAbs 0.9388158 1.166116e-11
rpvi 0.9388158 1.166116e-11
sd 0.9359214 1.912641e-11
ddpAbs 0.9327135 3.224252e-11
rapAbs 0.9327135 3.224252e-11
ppq5 0.9319101 3.660014e-11
ppq5Abs 0.9247266 1.066303e-10
cov 0.9150209 3.865897e-10
npvi 0.8853941 9.005243e-09
ddp 0.8554260 1.002460e-07
rap 0.8554260 1.002460e-07
jitt 0.8181207 1.042053e-06
cov5_x 0.6596751 4.533596e-04
ps13_20 -0.4593369 2.394361e-02
ps5_12 -0.5237125 8.625918e-03
Depois, há a sin2
quantidade, que é a altura para rpvi
(por exemplo), mas essa medida não é a variável mais próxima do primeiro componente.
Variables
Dim.1 ctr cos2 Dim.2 ctr cos2
rpvi | 0.939 8.126 0.881 | 0.147 1.020 0.022 |
npvi | 0.885 7.227 0.784 | 0.075 0.267 0.006 |
cov | 0.915 7.719 0.837 | -0.006 0.001 0.000 |
jittAbs | 0.939 8.126 0.881 | 0.147 1.020 0.022 |
jitt | 0.818 6.171 0.669 | 0.090 0.380 0.008 |
rapAbs | 0.933 8.020 0.870 | 0.126 0.746 0.016 |
rap | 0.855 6.746 0.732 | 0.040 0.076 0.002 |
ppq5Abs | 0.925 7.884 0.855 | 0.091 0.392 0.008 |
ppq5 | 0.932 8.007 0.868 | -0.035 0.057 0.001 |
ddpAbs | 0.933 8.020 0.870 | 0.126 0.746 0.016 |
ddp | 0.855 6.746 0.732 | 0.040 0.076 0.002 |
pa | 0.265 0.646 0.070 | -0.857 34.614 0.735 |
ps5_12 | -0.524 2.529 0.274 | 0.664 20.759 0.441 |
ps13_20 | -0.459 1.945 0.211 | 0.885 36.867 0.783 |
cov5_x | 0.660 4.012 0.435 | 0.245 2.831 0.060 |
sd | 0.936 8.076 0.876 | 0.056 0.150 0.003 |
Então, o que devo observar quando se trata da associação entre uma variável e o primeiro componente?
correlation
pca
factor-analysis
association-measure
biplot
Fredrik Karlsson
fonte
fonte
Respostas:
Explicação de um gráfico de carregamento da análise PCA ou Fator.
O gráfico de carregamento mostra variáveis como pontos no espaço dos principais componentes (ou fatores). As coordenadas das variáveis são, geralmente, as cargas. (Se você combinar adequadamente o gráfico de carregamento com o gráfico de dispersão correspondente de casos de dados no mesmo espaço de componentes, isso seria biplot.)
Vamos ter 3 variáveis de algum modo correlacionadas, , W , U . Nós os centralizamos e executamos o PCA , extraindo dois primeiros componentes principais de três: F 1 e F 2 . Usamos cargas como coordenadas para fazer o gráfico de carga abaixo. As cargas são os elementos dos autovetores não padronizados, ou seja, autovetores dotados de variações de componentes correspondentes ou valores próprios.V W U F1 F2
O gráfico de carregamento é o plano na imagem. Vamos considerar única variável . A flecha habitualmente desenhada em um gráfico de carregamento é o que é rotulado como h ' aqui; as coordenadas a 1 , a 2 são as cargas de V com F 1 e F 2 , respectivamente (por favor, saiba que terminologicamente é mais correto dizer "componente carrega uma variável", não vice-versa).V h′ a1 a2 V F1 F2
Seta é a projecção, no plano componente, do vector h que representa a posição real da variável V nas variáveis espaço gerado por V , W , L . O comprimento do vector quadrado, h 2 , é a variância de um de V . Enquanto h ′ 2 é a parte dessa variação explicada pelos dois componentes.h′ h V V W U h2 a V h′2
Carga, correlação, correlação projetada . Como as variáveis foram centradas antes da extração dos componentes, é a correlação de Pearson entre V e o componente F 1 . Isso não deve ser confundido com cos α no gráfico de carregamento, que é outra quantidade: é a correlação de Pearson entre o componente F 1 e a variável vetorizada aqui como h ' . Como variável, h ′ é a previsão de V pelos componentes (padronizados) na regressão linear (compare com o desenho da geometria de regressão linear aquicosϕ V F1 cosα F1 h′ h′ V ) Onde loadings 's são os coeficientes de regressão (quando os componentes são mantidos ortogonal, como extraída).a
Mais longe. Podemos lembrar (trigonometria) que . Pode ser entendido como o produto escalar entre o vetor V e o vetor de comprimento unitário F 1 : h ⋅ 1 ⋅ cos ϕ . F 1 define esse vetor de variação unitária porque não possui sua própria variação além da variação de V que ele explica (pela quantidade h ′ ): ou seja, F 1a1=h⋅cosϕ V F1 h⋅1⋅cosϕ F1 V h′ F1 é uma entidade extraída de V, W, U e não uma entidade convidada de fora. Então, claramente, é acovariânciaentreVebpadronizado, em escala de unidades(para definirs1= √a1=varV⋅varF1−−−−−−−−−−√⋅r=h⋅1⋅cosϕ V b ) componenteF1. Essa covariância é diretamente comparável às covariâncias entre as variáveis de entrada; por exemplo, a covariância entreVeWserá o produto de seus comprimentos de vetores multiplicados pelo cosseno entre eles.s1=varF1−−−−−√=1 F1 V W
Em resumo: carregar pode ser visto como a covariância entre o componente padronizado e a variável observada, h ⋅ 1 ⋅ cos ϕ , ou equivalente entre o componente padronizado e a imagem explicada (por todos os componentes que definem o gráfico) da variável, h ' ⋅ 1 ⋅ cos α . Esse cos α pode ser chamado de correlação V-F1 projetada no subespaço do componente F1-F2.a1 h⋅1⋅cosϕ h′⋅1⋅cosα cosα
A correlação acima mencionada entre uma variável e um componente, , também é chamado padronizado ou redimensionados carregamento . É conveniente na interpretação dos componentes porque está no intervalo [-1,1].cosϕ=a1/h
Relação com autovetores . O carregamento reescalonado não deve ser confundido com o elemento do vetor próprio que, como o conhecemos, é o cosseno do ângulo entre uma variável e um componente principal. Lembre-se de que o carregamento é um elemento do vetor próprio ampliado pelo valor singular do componente (raiz quadrada do valor próprio). Ou seja, para a variável V do nosso gráfico: a 1 = e 1 s 1 , onde s 1 é o st. desvio (não 1, mas original, ou seja, o valor singular) de F 1cosϕ V a1=e1s1 s1 1 F1 variavel latente. Então vem aquele elemento do vetor próprio , não ocosϕ emsi. A confusão em torno de duas palavras "cosseno" se dissolve quando lembramos em que tipo de representação espacial estamos. O valor do vetor próprioécossenodo ângulo de rotaçãode uma variável como eixo em pr. componente como eixo dentro do espaço variável (também conhecido como exibição de gráfico de dispersão),como aqui. Enquantocosϕem nosso gráfico de carregamentoé a medida de similaridade de cossenoentre uma variável como vetor e um pr. componente como ... bem ... como vetor também, se você quiser (embora seja desenhado como eixo no gráfico), - pois atualmente estamos noespaço de assuntoe1=a1s1=hs1cosϕ cosϕ cosϕ (qual é o gráfico de carregamento) em que variáveis correlacionadas são fãs de vetores - não são eixos ortogonais - e os ângulos de vetores são a medida de associação - e não de rotação da base espacial.
Enquanto carregamento é a medida de associação angular (ou seja, tipo de produto escalar) entre uma variável e um componente em escala de unidade, e carga reescalonada é a carga padronizada em que a escala da variável é reduzida a unidade também, mas o coeficiente de vetor próprio é o carregamento em que o componente é "super-padronizado", ou seja, foi levado à escala (em vez de 1); alternativamente, pode ser pensado como uma carga redimensionada em que a escala da variável foi trazida para h / s (em vez de 1).1/s h/s
Então, o que são associações entre uma variável e um componente? Você pode escolher o que quiser. Pode ser o carregamento (covariância com o componente escalado por unidade) ; o carregamento reescalonado cos ϕ (= correlação componente-variável); correlação entre a imagem (previsão) e o componente (= correlação projetada cos α ). Você pode até escolher o coeficiente de vetor próprio e = a / s, se precisar (embora eu me pergunte o que poderia ser um motivo). Ou invente sua própria medida.a cosϕ cosα e=a/s
O valor do vetor próprio quadrado ao significado da contribuição de uma variável para um pr. componente. O carregamento escalonado ao quadrado tem o significado da contribuição de um pr. componente em uma variável.
Relação com o PCA com base em correlações. Se analisássemos o PCA não apenas variáveis centradas, mas padronizadas (centradas e, em seguida, com variação de unidade), os três vetores de variáveis (não suas projeções no plano) teriam o mesmo comprimento de unidade. Em seguida, segue-se automaticamente que um carregamento é correlação , não covariância, entre uma variável e um componente. Mas essa correlação não será igual ao "carregamento padronizado" da imagem acima (com base na análise de variáveis apenas centralizadas), porque o PCA das variáveis padronizadas (PCA baseado em correlações) produz componentes diferentes do PCA das variáveis centralizadas ( PCA baseado em covariâncias). No PCA baseado em correlação a 1cosϕ porque h = 1 , mas os componentes principaisnãosãoos mesmoscomponentes principais que obtemos do PCA baseado em covariâncias (leia,leia).a1=cosϕ h=1
Na análise fatorial , o gráfico de carregamento tem basicamente o mesmo conceito e interpretação do PCA. A única (mas importante ) diferença é a substância de . Na análise fatorial, h ' - denominada então "comunalidade" da variável - é a parte de sua variância que é explicada por fatores comuns responsáveis especificamente pelas correlações entre as variáveis. Enquanto no PCA, a parte explicada h 'h′ h′ h′ é uma "mistura" bruta - em parte representa correlação e parcialmente não relação entre variáveis. Com a análise fatorial, o plano de cargas em nossa imagem seria orientado de maneira diferente (na verdade, ele até se estenderá do espaço de nossas variáveis 3d para a quarta dimensão, que não podemos desenhar; o plano de cargas não será um subespaço de nossa Espaço 3d medido por e as outras duas variáveis) e a projeção h ' terão outro comprimento e outro ângulo α . (A diferença teórica entre PCA e análise fatorial é explicada geometricamente aqui por meio da representação do espaço de assunto e aqui por meio da representação de espaço variável.)V h′ α
Resposta ao pedido de @Antoni Parellada nos comentários. É equivalente se você prefere falar em termos devariaçãoou em termos dedispersão(SS de desvio): variância = dispersão / (n-1), em quené o tamanho da amostra. Como estamos lidando com um conjunto de dados com o mesmon, a constante não altera nada nas fórmulas. SeXsão os dados (com as variáveis V, W, U centralizadas), a composição automática de sua matriz de covariância (A) produz os mesmos valores próprios (variações de componente) e vetores próprios que a composição automática de (B) matriz de dispersão X ′ Xa,b /(n−1) n n X X′X obtido após a divisão inicial de por √X fator n - 1 . Depois disso, na fórmula de um carregamento (veja a seção do meio da resposta),a1=h⋅s1⋅cosϕ, o termohést. desvio √n−1−−−−−√ a1=h⋅s1⋅cosϕ h em (A) mas dispersão da raiz (isto é, norma)"V"em (B). Termos1, o qual é igual a1,éo padronizadoF1r do componente. desvio √varV−−−−√ ∥V∥ s1 1 F1 em (A) mas dispersão da raiz"F1"em (B). Finalmente,cosφ=ré a correlação queé insensívelao uso den-1em seus cálculos. Assim, simplesmentefalamosconceitualmente de variações (A) ou de dispersões (B), enquanto os próprios valores permanecem os mesmos na fórmula em ambos os casos.varF1−−−−−√ ∥F1∥ cosϕ=r n−1
fonte