Usando componentes PCA com rotação varimax como preditores na regressão linear

8

Depois de executar o PCA, o primeiro componente descreve a maior parte da variabilidade. Isso é importante, por exemplo, no estudo de medidas corporais, onde é comumente conhecido (Jolliffe, 2002) que o eixo PC1 captura a variação de tamanho. Minha pergunta é se as pontuações do PCA após a rotação do varimax mantêm as mesmas propriedades ou são diferentes conforme mencionado neste tópico ?

Como eu preciso de pontuações PCA para análises estatísticas adicionais, estou me perguntando se o varimax é necessário e, de fato, isso atrapalha a representação da variabilidade real da amostra, para que as pontuações individuais nos eixos rotados não sejam informativas ou levem a interpretações errôneas da realidade?

Alguém também poderia sugerir algumas outras referências sobre esse tópico?

Fluxos de trabalho em R:

  1. PCA ( FactoMineRou prcomp) -> Extrair pontuações individuais -> Digite pontuações nolm
  2. PCA ( FactoMinerou prcomp) -> Varimax na matriz de cargas -> calcular as pontuações individuais -> inserir pontuações nalm
  3. FA ( psych, método de extração varimax e pca) -> extrair pontuações individuais -> Digite pontuações nolm

Agora, sem porcentagens de rotação (1.) da variabilidade explicada são 29,32, 5,6, 3,2, nos três primeiros eixos. 2. e 3. as soluções produzem porcentagens semelhantes nos três primeiros fatores, isto é, 12.2, 12.1, 8.2. Fora do curso 1. a solução tende a empurrar todas as cargas variáveis ​​altas no primeiro eixo, enquanto 2. e 3. tendem a distribuir as cargas entre os eixos (que é o motivo da rotação). Eu queria saber se esses três fluxos de trabalho são essenciais da mesma forma, pois as pontuações individuais são diferentes nos eixos rotacionados e não rotacionados?

Fedja Blagojevic
fonte
O objetivo da rotação é compartilhar a variabilidade entre os componentes, para que isso não seja mais verdade. Não sei ao certo o que você quer dizer com "interromper a representação da variabilidade real da amostra", mas a rotação não altera a proporção de variação explicada em cada item pelos componentes.
Jeremy Miles
2
A rotação é realizada apenas para fins de interpretação dos componentes. A interpretação é necessária apenas no contexto do "modelo de variável latente", ou seja, quando você trata um componente como um fator , = você toma a PCA como análise fatorial [uma decisão permitida, embora controversa]. Esse é o seu caso?
ttnphns
1
Como foi corretamente citado aqui , depois que os componentes de rotação não podem mais ser ordenados hierarquicamente (1º é o mais forte, 2º é o próximo atrás ...). Mas, no todo (multivariada), nenhuma informação é perdida em rotação; portanto, a pontuação de todos os componentes extraídos juntos é tão valiosa após a rotação quanto antes da rotação.
precisa saber é o seguinte
Eu só precisava ter certeza sobre alguma coisa e eu ter colocado o meu fluxo de trabalho em R.
Fedja Blagojevic
Sim, na verdade eu uso o PCA como EFA, mas também tentei com o EFA.
Fedja Blagojevic

Respostas:

7

Componentes principais padronizados (para variação de unidade) após uma rotação ortogonal, como o varimax, são simplesmente componentes principais padronizados rotacionados (por "componente principal", quero dizer escores de PC). Na regressão linear, a escala de preditores individuais não tem efeito e a substituição de preditores por suas combinações lineares (por exemplo, através de uma rotação) também não tem efeito. Isso significa que, usando uma das seguintes opções em uma regressão:

  • componentes principais "brutos" (projeções nos vetores próprios da matriz cov.),
  • componentes principais padronizados,
  • componentes principais rotacionados [padronizados],
  • componentes principais rotacionados arbitrariamente escalados [padronizados],

R2

A variação total capturada pelos PCs brutos e rotacionados é a mesma.

Isso responde à sua pergunta principal. No entanto, você deve ter cuidado com seus fluxos de trabalho, pois é muito fácil ficar confuso e atrapalhar os cálculos. A maneira mais simples de obter pontuações padronizadas de PCs rotacionadas é usar a psych::principalfunção:

 psych::principal(data, rotate="varimax", nfactors=k, scores=TRUE)

Seu fluxo de trabalho nº 2 pode ser mais complicado do que você imagina, porque os carregamentos após a rotação do varimax não são ortogonais; portanto, para obter as pontuações, você não pode simplesmente projetar os dados nas cargas giradas. Veja minha resposta aqui para obter detalhes:

Seu fluxo de trabalho nº 3 provavelmente também está errado, pelo menos se você se referir à psych::fafunção. Não faz PCA; o fm="pa"método de extração refere-se ao método de "fator principal", baseado no PCA, mas não é idêntico ao PCA (é um método iterativo). Como escrevi acima, você precisa psych::principalexecutar o PCA.

Veja minha resposta no seguinte tópico para obter uma conta detalhada sobre PCA e varimax:

ameba
fonte
Obrigado pelas amáveis ​​palavras, @Cbhihe. Tenho certeza de que os mods não podem marcar nenhuma resposta como aceita. Se você deseja entrar em contato com o OP (Fedja), deve comentar sob a pergunta dele e não sob a minha resposta; então ele será notificado do seu comentário. Parece que ele ainda está ativo no SE ("visto pela última vez" no SO hoje).
Ameba
@Mods, você pode fazer esta resposta "aceita" sem pontos de acumulação de OP (por uma boa medida, já que a OP deixou de fazê-lo)? Seria um serviço para a comunidade. Se não for possível para os mods fazer isso, vou iniciar um tópico na meta para discutir esse tipo de situação em que uma resposta MUITO boa é negligenciada pelo OP e, portanto, fica menos visível. Por último, mas não menos importante: obrigado, ameba. +1
Cbhihe
@ CBhihe Realmente não é possível. Portanto, se você deseja iniciar um thread Meta, pode prosseguir, pode ser uma discussão interessante.
Ameba #
você está certo sobre mods que não estão prontos para agir em vez de OP nesse caso. Existem alguns meta-posts sobre esse tópico e o problema continua há tanto tempo quanto a SE existe, tanto quanto eu posso dizer. Um problema real sem uma boa solução. Pena. Felicidades.
Cbhihe #