Estou usando a Análise de componentes principais (PCA) para criar um índice necessário para minha pesquisa. Minha pergunta é como devo criar um único índice usando os principais componentes retidos calculados por meio do PCA.
Por exemplo, decidi reter 3 componentes principais depois de usar o PCA e calculei as pontuações para esses 3 componentes principais. Quais são as maneiras apropriadas de criar, para cada entrevistado, um único índice dessas três pontuações?
- É relevante adicionar as 3 pontuações computadas para ter um valor composto?
- Ou para calcular a média das três pontuações para ter esse valor?
- Ou devo manter apenas o primeiro componente principal (o mais forte) e usar sua pontuação como índice?
Como alternativa, pode-se usar a Análise Fatorial (FA), mas a mesma pergunta permanece: como criar um único índice com base em várias pontuações fatoriais?
pca
factor-analysis
rating
composite
scale-construction
user179313
fonte
fonte
Respostas:
Essa resposta é deliberadamente não matemática e é orientada para o psicólogo não estatístico (por exemplo), que pergunta se ele pode somar / pontuação média de fatores diferentes para obter uma pontuação de "índice composto" para cada respondente.
A soma ou a média das pontuações de algumas variáveis pressupõem que as variáveis pertençam à mesma dimensão e sejam medidas fungíveis. (Na questão, "variáveis" são pontuações de componentes ou fatores , o que não muda nada, pois são exemplos de variáveis.)
Realmente (Fig. 1), os entrevistados 1 e 2 podem ser vistos como igualmente atípicos (ou seja, desviados de 0, o local do centro de dados ou a origem da escala), ambos com a mesma pontuação média e ( 1,2 + 0,4 ) / 2 = 0,8 . O valor 0,8 é válido, como a extensão da atipicidade, para o construto X + Y tão perfeitamente quanto para X e Y(.8+.8)/2=.8 (1.2+.4)/2=.8 .8 X+Y X Y separadamente. Variáveis correlacionadas, representando a mesma dimensão, podem ser vistas como medidas repetidas da mesma característica e a diferença ou não equivalência de suas pontuações como erro aleatório. É, portanto, warranded a soma / média das notas atribuídas desde são esperados erros aleatórios que se anulam mutuamente em spe .
Não é assim se e Y não se correlacionam o suficiente para serem vistos na mesma "dimensão". Para então, o desvio / atipicidade de um respondente é transmitido pela distância euclidiana da origem (Fig. 2).X Y
Essa distância é diferente para os entrevistados 1 e 2: e√.82+.82−−−−−−−√≈1.13 , - responda 2 afastando-se mais. Se as variáveis são dimensões independentes, a distância euclidiana ainda relaciona a posição de um respondente com a referência zero, mas a pontuação média não. Tome apenas um exemplo máximo comX=0,8eY=-0,8. Do "ponto de vista" da pontuação média, esse respondente é absolutamente típico, comoX=0,Y=0. Isso é verdade para você?1.22+.42−−−−−−−−√≈1.26 X=.8 Y=−.8 X=0 Y=0
Outra resposta aqui menciona soma ponderada ou médio, ou seja, com alguns pesos razoáveis, por exemplo - se X , Y são componentes principais - proporcionais ao r componente. desvio ou variância. Mas essa ponderação não muda nada em princípio, apenas estica e aperta o círculo na Fig. 2 ao longo dos eixos em uma elipse. Pesos w X , w YwXXi+wYYi X Y wX wY são definidos constantes para todos os entrevistados i, que é a causa da falha. Para relacionar o desvio bivariado de um entrevistado - em um círculo ou elipse - devem ser introduzidos pesos dependentes de suas pontuações; a distância euclidiana considerada anteriormente é na verdade um exemplo dessa soma ponderada com pesos dependentes dos valores. E se é importante para você incorporar variações desiguais das variáveis (por exemplo, dos componentes principais, como na pergunta), você pode calcular a distância euclidiana ponderada, a distância que será encontrada na Fig. 2 depois que o círculo se alongar.
A distância euclidiana (ponderada ou não) como desvio é a solução mais intuitiva para medir a atipicidade bivariada ou multivariada dos entrevistados. Baseia-se no pressuposto das variáveis não corrigidas ("independentes"), formando um espaço isotrópico suave. A distância de Manhatten pode ser uma das outras opções. Ele visualiza o espaço do recurso como composto por blocos, de modo que apenas distâncias horizontais / eretas, e não diagonais, são permitidas. e | 1.2 | + | .4 | = 1,6|.8|+|.8|=1.6 |1.2|+|.4|=1.6 dar atipicalidades iguais em Manhattan para dois de nossos entrevistados; na verdade, é a soma das pontuações - mas somente quando as pontuações são todas positivas. No caso de e Y = - 0,8, a distância é 1,6, mas a soma é 0 .X=.8 Y=−.8 1.6 0
(Você pode exclamar "Farei todas as pontuações de dados positivas e computarei a soma (ou média) com boa consciência desde que escolhi a distância de Manhatten", mas pense: você está certo em mudar a origem livremente? Principais componentes ou fatores, por exemplo, são extraídos sob a condição de os dados serem centrados na média, o que faz sentido. Outra origem teria produzido outros componentes / fatores com outras pontuações. Não, na maioria das vezes você pode não brincar com a origem - o locus de "entrevistado típico" ou de "característica de nível zero" - como você gosta de jogar.)
Em suma , se o objetivo do construto composto é refletir as posições dos respondentes em relação a algum "zero" ou locus típico, mas as variáveis quase não se correlacionam, algum tipo de distância espacial dessa origem e não média (ou soma) ponderada ou não ponderado, deve ser escolhido.
Bem, a média (soma) fará sentido se você decidir visualizar as variáveis (não correlacionadas) como modos alternativos para medir a mesma coisa. Dessa forma, você está deliberadamente ignorando a natureza diferente das variáveis. Em outras palavras, você conscientemente deixa a Figura 2 em favor da Figura 1: você "esquece" que as variáveis são independentes. Então - soma ou média. Por exemplo, a pontuação no "bem-estar material" e no "bem-estar emocional" pode ser calculada, da mesma forma que as pontuações no "QI espacial" e no "QI verbal". Esse tipo de prática puramente pragmática, os compostos não aprovados satisfatoriamente são chamados de índices de bateria (uma coleção de testes ou questionários que medem itens não relacionados ou correlatos cujas correlações ignoramos são chamadas de "bateria"). Os índices de bateria só fazem sentido se as pontuações tiverem a mesma direção (como riqueza e saúde emocional são vistas como pólo "melhor"). Sua utilidade fora de configurações ad hoc estreitas é limitada.
Se as variáveis estão entre as relações - elas são consideravelmente correlacionadas ainda não suficientemente fortes para vê-las como duplicatas, alternativas uma da outra, geralmente somamos (ou calculamos a média) seus valores de maneira ponderada. Então esses pesos devem ser cuidadosamente projetados e devem refletir, dessa ou daquela maneira, as correlações. É o que fazemos, por exemplo, por meio de PCA ou análise fatorial (FA), onde calculamos especialmente as pontuações de componentes / fatores. Se suas variáveis já são pontuações de componentes ou fatores (como a pergunta OP aqui diz) e estão correlacionadas (devido à rotação oblíqua), você pode submetê-las (ou diretamente a matriz de carregamento) ao PCA / FA de segunda ordem para encontrar os pesos e obtenha o PC / fator de segunda ordem que servirá o "índice composto" para você.
Porém, se as pontuações de seus componentes / fatores não foram correlacionadas ou estão pouco correlacionadas, não há razão estatística nem para somar sem rodeios nem por meio da dedução de pesos. Use alguma distância. O problema da distância é que ela é sempre positiva: você pode dizer o quão atípico é um entrevistado, mas não pode dizer se ele está "acima" ou "abaixo". Mas esse é o preço que você precisa pagar para exigir um único índice do espaço com várias características. Se você quer desvio e sinal em tal espaço, eu diria que você é muito exigente.
No último ponto, o OP pergunta se é correto obter apenas a pontuação de uma variável mais forte em relação à sua variância - 1º componente principal neste caso - como o único proxy, para o "índice". Faz sentido se esse PC é muito mais forte que os demais. Embora se possa perguntar "se é muito mais forte, por que você não extraiu / reteve apenas o único?".
fonte
Criando índice composto usando o PCA a partir de links de séries temporais para http://www.cup.ualberta.ca/wp-content/uploads/2013/04/SEICUPWebsite_10April13.pdf .
Nesse artigo, na página 19, os autores mencionam uma maneira de criar um Índice Não Padronizado (NSI) usando a proporção da variação explicada por cada fator à variação total explicada pelos fatores escolhidos. Este NSI foi então normalizado.
fonte