É possível visualizar a saída da Análise de componentes principais de maneiras que fornecem mais informações do que apenas tabelas de resumo? É possível fazer isso quando o número de observações é grande, digamos ~ 1e4? E é possível fazer isso em R [outros ambientes são bem-vindos]?
r
data-visualization
pca
biplot
gappy
fonte
fonte
Respostas:
O biplot é uma ferramenta útil para visualizar os resultados do PCA. Permite visualizar as pontuações e direções dos principais componentes simultaneamente. Com 10.000 observações, você provavelmente terá um problema com excesso de plotagem. A mistura alfa pode ajudar lá.
Aqui está um biplot para PC dos dados do wine do repositório UCI ML :
Os pontos correspondem às pontuações PC1 e PC2 de cada observação. As setas representam a correlação das variáveis com PC1 e PC2. O círculo branco indica a extensão máxima teórica das setas. As elipses são elipses de 68% dos dados para cada uma das três variedades de vinho dos dados.
Eu disponibilizei o código para gerar esse gráfico aqui .
fonte
Um gráfico de Wachter pode ajudá-lo a visualizar os autovalores do seu PCA. É essencialmente um gráfico QQ dos valores próprios em relação à distribuição de Marchenko-Pastur. Eu tenho um exemplo aqui: existe um autovalor dominante que fica fora da distribuição Marchenko-Pastur. A utilidade desse tipo de plotagem depende da sua aplicação.
fonte
Você também pode usar o pacote psych.
Isso contém um método plot.factor, que plotará os diferentes componentes um contra o outro no estilo de uma matriz de gráfico de dispersão.
fonte