Encontrei este belo tutorial: Um manual de análises estatísticas usando R. Capítulo 13. Análise de componentes principais: O heptatlo olímpico sobre como fazer PCA na linguagem R. Não entendo a interpretação da Figura 13.3:
Então, eu estou plotando o primeiro vetor próprio vs o segundo vetor próprio. O que isso significa? Suponha que o autovalor correspondente ao primeiro vetor próprio explique 60% da variação no conjunto de dados e o segundo valor próprio-vetor próprio explique 20% da variação. O que significa plotá-los um contra o outro?
r
pca
data-visualization
interpretation
biplot
user862
fonte
fonte
Respostas:
Acho que, no entanto, é melhor você começar a ler um livro introdutório sobre análise multivariada para obter uma visão profunda dos métodos baseados em PCA. Por exemplo, a BS Everitt escreveu um excelente livro sobre este tópico, An R e S-Plus ® Companion to Multivariate Analysis , e você pode conferir o site do companheiro para obter ilustrações. Existem outros ótimos pacotes R para análise de dados multivariada aplicada, como ade4 e FactoMineR .
fonte
O gráfico está mostrando:
Os eixos esquerdo e inferior estão mostrando pontuações [normalizadas] dos componentes principais; os eixos superior e direito estão mostrando as cargas.
Em geral, assume-se que dois componentes explicam uma quantidade suficiente da variação para fornecer uma representação visual significativa da estrutura de casos e variáveis.
Você pode ver quais eventos estão próximos no espaço. Onde isso se aplica, isso pode sugerir que os atletas que são bons em um evento provavelmente também sejam bons nos outros eventos proximais. Como alternativa, você pode usar o gráfico para ver quais eventos estão distantes. Por exemplo, o dardo parece ser um pouco estranho e um evento importante que define o segundo componente principal. Talvez um tipo diferente de atleta seja bom em dardo do que na maioria dos outros eventos.
Obviamente, mais poderia ser dito sobre interpretação substantiva.
fonte