Antecedentes: perguntei a centenas de participantes da minha pesquisa quanto eles estavam interessados em áreas selecionadas (em escalas Likert de cinco pontos, sendo 1 indicando "não interessado" e 5 indicando "interessado").
Então eu tentei o PCA. A figura abaixo é uma projeção dos dois primeiros componentes principais. As cores são usadas para os sexos e as setas do PCA são variáveis originais (ou seja, interesses).
Eu percebi isso:
- Os pontos (respondentes) são muito bem separados pelo segundo componente.
- Não há pontos de seta restantes.
- Algumas flechas são muito mais curtas que outras.
- Variáveis tendem a criar agrupamentos, mas não observações.
- Parece que as setas apontando para baixo (para homens) são principalmente interesses masculinos e as setas para cima são principalmente interesses femininos.
- Algumas setas não apontam para baixo nem para cima.
Perguntas: Como interpretar corretamente as relações entre pontos (respondentes), cores (sexos) e setas (variáveis)? Que outras conclusões sobre os entrevistados e seus interesses podem ser extraídas dessa trama?
Os dados podem ser encontrados aqui .
Respostas:
Os pontos são os entrevistados e as cores são os sexos. Você sabe disso. Os principais eixos do seu gráfico representam a primeira e a segunda pontuações no PC e os indivíduos são plotados nessa base. Alguém no quadrante inferior esquerdo obteve pontuações baixas em ambos. O PC2 parece sinalizar interesses "masculinos" e "femininos". Não sei o que PC1 significa, mas provavelmente representa uma pontuação geral de interesse - pessoas com muitos interesses têm pontuação alta. Ou talvez represente pessoas com interesses apaixonados (nota 5).
Os vetores são um sistema de coordenadas projetado para as variáveis originais. Portanto, se você projetar um ponto perpendicular ao vetor de leitura, digamos - você deve obter a pontuação dessa pessoa. A posição relativa é importante aqui.
Pegue um vetor "masculino" como "esportes com adrenalina". Agora imagine que você projeta uma mancha rosa nela do alto no quadrante superior direito. A coordenação dessa pessoa em "esportes com adrenalina" será negativa.
Então, por que as setas estão todas na metade direita do gráfico? Dada a geometria, quanto mais uma pessoa estiver no lado esquerdo do gráfico, menos projeções serão positivas. Isso sugere que PC1 é uma medida do nível de interesse geral.
Não tenho certeza do que mais você poderia aprender aqui. Você pode querer olhar para o PC3 e o PC4, se o PC1 e o PC2 apenas disserem que algumas pessoas têm mais interesses que outras e que os homens são diferentes das mulheres.
Seu gráfico parece quase simétrico em torno do eixo PC1 e simétrico em relação ao sexo. Tantos homens têm interesses femininos quanto mulheres têm interesses masculinos ... ou isso é verdade? Estou apenas olhando para os pontos. Pode ser interessante examinar áreas em que o mapa não é simétrico: PC1 grande, PC2 moderadamente negativo - esse setor tem muita ação. Por quê?
fonte