Estou tentando entender a saída da análise de componentes principais executada da seguinte maneira:
> head(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5.0 3.6 1.4 0.2 setosa
6 5.4 3.9 1.7 0.4 setosa
> res = prcomp(iris[1:4], scale=T)
> res
Standard deviations:
[1] 1.7083611 0.9560494 0.3830886 0.1439265
Rotation:
PC1 PC2 PC3 PC4
Sepal.Length 0.5210659 -0.37741762 0.7195664 0.2612863
Sepal.Width -0.2693474 -0.92329566 -0.2443818 -0.1235096
Petal.Length 0.5804131 -0.02449161 -0.1421264 -0.8014492
Petal.Width 0.5648565 -0.06694199 -0.6342727 0.5235971
>
> summary(res)
Importance of components:
PC1 PC2 PC3 PC4
Standard deviation 1.7084 0.9560 0.38309 0.14393
Proportion of Variance 0.7296 0.2285 0.03669 0.00518
Cumulative Proportion 0.7296 0.9581 0.99482 1.00000
>
Eu costumo concluir o seguinte da saída acima:
A proporção de variação indica quanto da variação total existe na variação de um componente principal específico. Portanto, a variabilidade do PC1 explica 73% da variação total dos dados.
Os valores de rotação mostrados são iguais aos 'carregamentos' mencionados em algumas descrições.
Considerando as rotações do PC1, pode-se concluir que Sepal.Length, Petal.Length e Petal.Width estão diretamente relacionados, e todos estão inversamente relacionados ao Sepal.Width (que tem um valor negativo na rotação do PC1)
Pode haver um fator nas plantas (algum sistema funcional químico / físico etc.) que pode estar afetando todas essas variáveis (Sepal.Length, Petal.Length e Petal.Width em uma direção e Sepal.Width na direção oposta).
Se eu quiser mostrar todas as rotações em um gráfico, posso mostrar sua contribuição relativa à variação total multiplicando cada rotação pela proporção da variação desse componente principal. Por exemplo, para PC1, as rotações de 0,52, -0,26, 0,58 e 0,56 são todas multiplicadas por 0,73 (variação proporcional para PC1, mostrada na saída resumida (res).
Estou certo sobre as conclusões acima?
Edite a pergunta 5: desejo mostrar toda a rotação em um gráfico de barras simples da seguinte maneira:
Como PC2, PC3 e PC4 têm uma contribuição progressivamente menor para a variação, fará sentido ajustar (reduzir) as cargas das variáveis existentes?
fonte
Respostas:
prcomp
documentação , embora não tenha certeza do motivo pelo qual eles rotulam essa parte do aspecto "Rotação", pois isso implica que as cargas foram giradas usando algum método ortogonal (provável) ou oblíquo (menos provável).ggplot2
, acredito que isso seja feito com oalpha
estética), com base na proporção de variação explicada por cada componente (ou seja, cores mais sólidas = mais variação explicada). No entanto, na minha experiência, sua figura não é uma maneira típica de apresentar os resultados de um PCA - acho que uma tabela ou duas (cargas + variação explicadas em uma, correlações de componentes em outra) seriam muito mais diretas.Referências
Fabrigar, LR, Wegener, DT, MacCallum, RC, & Strahan, EJ (1999). Avaliando o uso da análise fatorial exploratória em pesquisa psicológica. Psychological Methods , 4 , 272-299.
Widaman, KF (2007). Fatores comuns versus componentes: princípios e princípios, erros e conceitos errôneos . Em R. Cudeck e RC MacCallum (Eds.), Análise fatorial em 100: desenvolvimentos históricos e direções futuras (pp. 177-203). Mahwah, NJ: Lawrence Erlbaum.
fonte
fonte