Conclusões do resultado de uma análise de componentes principais

9

Estou tentando entender a saída da análise de componentes principais executada da seguinte maneira:

> head(iris)
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          5.1         3.5          1.4         0.2  setosa
2          4.9         3.0          1.4         0.2  setosa
3          4.7         3.2          1.3         0.2  setosa
4          4.6         3.1          1.5         0.2  setosa
5          5.0         3.6          1.4         0.2  setosa
6          5.4         3.9          1.7         0.4  setosa
> res = prcomp(iris[1:4], scale=T)
> res
Standard deviations:
[1] 1.7083611 0.9560494 0.3830886 0.1439265

Rotation:
                    PC1         PC2        PC3        PC4
Sepal.Length  0.5210659 -0.37741762  0.7195664  0.2612863
Sepal.Width  -0.2693474 -0.92329566 -0.2443818 -0.1235096
Petal.Length  0.5804131 -0.02449161 -0.1421264 -0.8014492
Petal.Width   0.5648565 -0.06694199 -0.6342727  0.5235971
> 
> summary(res)
Importance of components:
                          PC1    PC2     PC3     PC4
Standard deviation     1.7084 0.9560 0.38309 0.14393
Proportion of Variance 0.7296 0.2285 0.03669 0.00518
Cumulative Proportion  0.7296 0.9581 0.99482 1.00000
> 

Eu costumo concluir o seguinte da saída acima:

  1. A proporção de variação indica quanto da variação total existe na variação de um componente principal específico. Portanto, a variabilidade do PC1 explica 73% da variação total dos dados.

  2. Os valores de rotação mostrados são iguais aos 'carregamentos' mencionados em algumas descrições.

  3. Considerando as rotações do PC1, pode-se concluir que Sepal.Length, Petal.Length e Petal.Width estão diretamente relacionados, e todos estão inversamente relacionados ao Sepal.Width (que tem um valor negativo na rotação do PC1)

  4. Pode haver um fator nas plantas (algum sistema funcional químico / físico etc.) que pode estar afetando todas essas variáveis ​​(Sepal.Length, Petal.Length e Petal.Width em uma direção e Sepal.Width na direção oposta).

  5. Se eu quiser mostrar todas as rotações em um gráfico, posso mostrar sua contribuição relativa à variação total multiplicando cada rotação pela proporção da variação desse componente principal. Por exemplo, para PC1, as rotações de 0,52, -0,26, 0,58 e 0,56 são todas multiplicadas por 0,73 (variação proporcional para PC1, mostrada na saída resumida (res).

Estou certo sobre as conclusões acima?

Edite a pergunta 5: desejo mostrar toda a rotação em um gráfico de barras simples da seguinte maneira: insira a descrição da imagem aqui

Como PC2, PC3 e PC4 têm uma contribuição progressivamente menor para a variação, fará sentido ajustar (reduzir) as cargas das variáveis ​​existentes?

rnso
fonte
Re (5): o que você chama de "cargas" na verdade não são cargas, mas vetores próprios da matriz de covariância, também conhecidos como direções principais, também conhecidos como eixos principais. "Cargas" são autovetores multiplicados por raízes quadradas de seus autovalores, ou seja, por raízes quadradas da proporção da variância explicada. As cargas têm muitas propriedades agradáveis ​​e são úteis para interpretação, veja, por exemplo, este tópico: Loadings vs eigenvectors in PCA: Quando usar uma ou outra? Então, sim, faz muito sentido escalar seus vetores próprios, basta usar raízes quadradas da variação explicada.
Ameba
@amoeba: O que é plotado em biplot de PCA, rotações ou cargas?
rnso
Na maioria das vezes, os carregamentos são plotados. Veja minha resposta aqui para uma discussão mais aprofundada.
Ameba

Respostas:

9
  1. Sim. Esta é a interpretação correta.
  2. Sim, os valores de rotação indicam os valores de carregamento do componente. Isso é confirmado pela prcomp documentação , embora não tenha certeza do motivo pelo qual eles rotulam essa parte do aspecto "Rotação", pois isso implica que as cargas foram giradas usando algum método ortogonal (provável) ou oblíquo (menos provável).
  3. Embora pareça ser o caso em que Sepal.Length, Petal.Length e Petal.Width estão todos associados positivamente, eu não colocaria tanto estoque no pequeno carregamento negativo de Sepal.Width no PC1; ele carrega muito mais fortemente (quase exclusivamente) no PC2. Para ser claro, o Sepal.Width ainda está provavelmente associado negativamente às outras três variáveis, mas simplesmente não parece estar fortemente relacionado ao primeiro componente do princípio.
  4. Com base nessa pergunta, pergunto-me se você seria melhor atendido usando uma análise de fator comum (CF), em vez de uma análise de componentes principais (PCA). A CF é mais uma técnica apropriada de redução de dados quando seu objetivo é descobrir dimensões teóricas significativas - como o fator de planta que você está hipotetizando que pode afetar Sepal.Length, Petal.Length e Petal.Width. Aprecio que você seja de algum tipo de ciência biológica - talvez botânica -, mas há alguns bons escritos em Psicologia na distinção PCA x CF de Fabrigar et al., 1999, Widaman, 2007 e outros. A principal distinção entre os dois é que o PCA assume que todas as variações são variação de pontuação verdadeira - nenhum erro é assumido - enquanto o CF particiona a variação de pontuação verdadeira da variação de erro, antes que os fatores sejam extraídos e as cargas de fatores sejam estimadas. Por fim, você pode obter uma solução de aparência semelhante - às vezes as pessoas têm -, mas quando divergem, costuma ocorrer que o PCA superestime os valores de carregamento e subestime as correlações entre os componentes. Uma vantagem adicional da abordagem de CF é que você pode usar a estimativa de probabilidade máxima para realizar testes de significância dos valores de carregamento, além de obter alguns índices de quão bem sua solução escolhida (1 fator, 2 fatores, 3 fatores ou 4 fatores) explica sua dados.
  5. Eu traçaria os valores de carga fatorial como você tem, sem ponderar suas barras pela proporção de variação para seus respectivos componentes. Entendo o que você deseja tentar mostrar com essa abordagem, mas acho que provavelmente levaria os leitores a entenderem mal os componentes que carregam valores de sua análise. No entanto, se você quiser uma maneira visual de mostrar a magnitude relativa da variação contabilizada por cada componente, considere manipular a opacidade das barras dos grupos (se estiver usando ggplot2, acredito que isso seja feito com oalphaestética), com base na proporção de variação explicada por cada componente (ou seja, cores mais sólidas = mais variação explicada). No entanto, na minha experiência, sua figura não é uma maneira típica de apresentar os resultados de um PCA - acho que uma tabela ou duas (cargas + variação explicadas em uma, correlações de componentes em outra) seriam muito mais diretas.

Referências

Fabrigar, LR, Wegener, DT, MacCallum, RC, & Strahan, EJ (1999). Avaliando o uso da análise fatorial exploratória em pesquisa psicológica. Psychological Methods , 4 , 272-299.

Widaman, KF (2007). Fatores comuns versus componentes: princípios e princípios, erros e conceitos errôneos . Em R. Cudeck e RC MacCallum (Eds.), Análise fatorial em 100: desenvolvimentos históricos e direções futuras (pp. 177-203). Mahwah, NJ: Lawrence Erlbaum.

jsakaluk
fonte
2
+1, muitos bons pontos aqui. Re (2): os autovetores da matriz de covariância são chamados de "Rotação" aqui, porque o PCA é essencialmente uma rotação do sistema de coordenadas, de modo que o novo sistema de coordenadas esteja alinhado com os autovetores. Isso não tem nada a ver com "rotação ortogonal / oblíqua de fatores" na análise fatorial. Re (5): Não sei ao certo o que você quis dizer aqui, e também não entendo como o OP quer "mostrar" os vetores próprios "em um gráfico". Talvez o OP tenha algo parecido com um biplot em mente. Então sim, os vetores próprios geralmente são dimensionados pelos valores próprios, mas por suas raízes quadradas.
Ameba
Embora enredo floral-temático agradável para o seu tema, @rnso :)
jsakaluk
1
  1. Não, não a variação total dos dados. A variação total dos dados fornecidos, você deseja expressá-los em 4 componentes principais. Você sempre pode encontrar uma variação mais total adicionando mais componentes principais. Mas isso decai rapidamente.
Brad
fonte