Gostaria de saber se faz algum sentido lógico executar a análise de componentes principais (PCA) e análise fatorial exploratória (EFA) no mesmo conjunto de dados. Ouvi profissionais recomendar expressamente:
- Entenda qual é o objetivo da análise e escolha PCA ou EFA para a análise dos dados;
- Depois de fazer uma análise, não há necessidade de fazer a outra análise.
Entendo as diferenças motivacionais entre os dois, mas estava me perguntando se há algo errado na interpretação dos resultados fornecidos pelo PCA e pelo EFA ao mesmo tempo?
pca
factor-analysis
user42538
fonte
fonte
Respostas:
Ambos os modelos - componente principal e fator comum - são modelos regressivos lineares lineares preditivos semelhantes, prevendo variáveis observadas por variáveis latentes. Vamos centrar as variáveis V1 V2 ... Vp e optamos por extrair 2 componentes / fatores FI e FII . Então o modelo é o sistema de equações:
onde o coeficiente a é uma carga, F é um fator ou um componente e a variável E é resíduos de regressão. Aqui, o modelo de FA difere do modelo de PCA exatamente pelo fato de a FA impor o requisito: variáveis E1 E2 ... Ep (os termos de erro que não estão correlacionados com os Fs ) não devem se correlacionar ( consulte as figuras ). Essas variáveis de erro FA chama "fatores únicos"; suas variações são conhecidas ("singularidades"), mas seus valores casualmente não são. Portanto, as pontuações fatoriais F são computadas apenas como boas aproximações, não são exatas.
(Uma apresentação de álgebra matricial desse modelo de análise de fator comum está na nota de rodapé 1. )1
Enquanto no PCA as variáveis de erro ao prever variáveis diferentes podem se correlacionar livremente: nada lhes é imposto. Eles representam a "escória" pela qual consideramos as dimensões p-2 deixadas de fora . Conhecemos os valores de E e, portanto, podemos calcular as pontuações dos componentes F como valores exatos.
Essa foi a diferença entre o modelo PCA e o modelo FA.
É devido à diferença acima descrita que a FA é capaz de explicar correlações aos pares (covariâncias). O PCA geralmente não pode fazê-lo (a menos que o número de componentes extraídos = p ); só pode explicar a variância multivariada 2 . Portanto, desde que o termo "análise fatorial" seja definido com o objetivo de explicar correlações, o PCA não é uma análise fatorial. Se "Análise fatorial" é definida de maneira mais ampla como um método que fornece ou sugere "características" latentes que podem ser interpretadas, a PCA pode ser vista como uma forma especial e mais simples de análise fatorial.2
Às vezes - em alguns conjuntos de dados sob certas condições - o PCA deixa os termos E que quase não se correlacionam. Então o PCA pode explicar correlações e se tornar como FA. Não é muito incomum com conjuntos de dados com muitas variáveis. Isso levou alguns observadores a afirmar que os resultados do PCA se aproximam dos resultados da FA à medida que os dados aumentam. Não acho que seja uma regra, mas a tendência pode realmente ser. De qualquer forma, dadas as diferenças teóricas, é sempre bom selecionar o método conscientemente. A FA é um modelo mais realista se você deseja reduzir variáveis para latentes, as quais você considerará traços latentes reais que estão por trás das variáveis e as tornam correlatas.
Mas se você tiver outro objetivo - reduzir a dimensionalidade, mantendo as distâncias entre os pontos da nuvem de dados o máximo possível - o PCA é melhor que o FA. (No entanto, o procedimento iterative Multidimensional Scaling (MDS) será ainda melhor. O PCA equivale a MDS métrica nãoiterativa). quanto possível, por poucas dimensões - o PCA é uma escolha ideal.
Modelo de dados de análise fatorial: V = F A ′ + E d i a g ( u ) , onde V sãodados analisados (colunas centralizadas ou padronizadas), F évalores de fatores comuns (os verdadeiros desconhecidos, não os escores de fatores) com unidade variância, a ématriz de cargas factor comum (matriz padrão), E évalores do factor únicos (desconhecidos), u é ovector do factor único cargas igual ao sq. raiz das singularidades ( U 2 ). Parte1 V=FA′+Ediag(u) V F A E u u2 pode ser simplesmente rotulado como "E" por simplicidade, como está nas fórmulas que abrem a resposta.Ediag(u)
n cases x p variables
n x m
p x m
n x p
p
Principais premissas do modelo:
Resulta domodelo deanálise de fatorescomunsque as cargas A demfatores comuns (variáveism<p), também denominadas A ( m ) , devem reproduzir de perto covariâncias (ou correlações) observadas entre as variáveis, Σ . Portanto, se os fatores são ortogonais, oteorema do fatorfundamentalafirma que2 A A(m) Σ
eΣ≈ Σ +diag(u2),Σ^=AA′ Σ≈Σ^+diag(u2)
onde Σ é a matriz de covariâncias reproduzido (ou correlações) com variações comuns ( "comunalidades") na sua diagonal; e variações únicas ("singularidades") - que são variações menos comunalidades - são o vetor u 2 . A discrepância fora da diagonal ( ≈ ) se deve a esses fatores, é um modelo teórico que gera dados e, como tal, é mais simples do que os dados observados nos quais foi construído. As principais causas da discrepância entre as covariâncias observadas e reproduzidas (ou correlações) podem ser: (1) o número de fatores m não é estatisticamente ideal; (2) correlações parciais (estas sãoΣ^ u2 ≈
p(p-1)/2
fatores que não pertencem a fatores comuns) são pronunciados; (3) comunalidades mal avaliadas, seus valores iniciais foram baixos; (4) os relacionamentos não são lineares, o uso do modelo linear é questionável; (5) o modelo "subtipo" produzido pelo método de extração não é ideal para os dados (consulte sobre diferentes métodos de extração ). Em outras palavras, algumas suposições de dados de FA não são totalmente atendidas.Quanto ao PCA comum , ele reproduz covariâncias pelas cargas exatamente quando m = p (todos os componentes são usados) e geralmente falha se m < p (apenas alguns primeiros componentes retidos). O teorema de fator para PCA é:
,Σ=AA′(p)=AA′(m)+AA′(p−m)
portanto, tanto os carregamentos quanto os carregamentos descartados A ( p - m ) são misturas de comunalidades e singularidades e nenhum dos dois individualmente pode ajudar a restaurar as covariâncias. Quanto mais m estiver perto de p , melhor o PCA restaura as covariâncias, em regra, mas m pequeno (o que geralmente é do nosso interesse) não ajuda. Isso é diferente da FA, que se destina a restaurar as covariâncias com um número ótimo de fatores ideal muito pequeno. Se A A ′ ( p - m ) se aproxima da diagonalidade, o PCA se torna FA, com AA(m) A(p−m) AA′(p−m) restaurar todas as covariâncias. Ocorre ocasionalmente com o PCA, como já mencionei. Mas o PCA não possui capacidade algorítmica para forçar essa diagonalização. São os algoritmos de FA que fazem isso.A(m)
FA, não PCA, é um modelo de geração de dados: pressupõe poucos fatores comuns "verdadeiros" (de número geralmente desconhecido, para que você tente m dentro de um intervalo) que geram valores "verdadeiros" para covariâncias. As covariâncias observadas são as "verdadeiras" + pequeno ruído aleatório. (É devido à diagonalização realizada que deixou o único restaurador de todas as covariâncias, que o ruído acima pode ser pequeno e aleatório.) Tentando ajustar mais fatores do que as quantidades ideais para a tentativa de ajuste excessivo e não necessariamente uma tentativa eficiente de ajuste adequado .A(m)
Graças à maximização do traço - a variação explicada por m componentes - o PCA é responsável por covariâncias, uma vez que covariância é variação compartilhada. Nesse sentido, o PCA é uma "aproximação de baixo escalão" de toda a matriz de covariância das variáveis. E, quando vista do ponto de vista das observações, essa aproximação é a aproximação da matriz de observações à distância euclidiana (razão pela qual PCA é MDS métrica chamada "Análise de Coordenadas Principais). Esse fato não deve nos desviar da realidade de que o PCA não modela matriz de covariância (cada covariância), gerada por poucas características latentes vivas imagináveis como transcendentes em relação a nossas variáveis; a aproximação do PCA permanece imanente, mesmo que seja boa: é a simplificação dos dados.
Se você quiser ver os cálculos passo a passo feitos no PCA e no FA, comentados e comparados, consulte aqui .
fonte
Forneci minha própria conta das semelhanças e diferenças entre o PCA e o FA no seguinte encadeamento: Existe algum bom motivo para usar o PCA em vez do EFA? Além disso, o PCA pode substituir a análise fatorial?
Observe que minha conta é um pouco diferente daquela de @ttnphns (como apresentado na resposta acima). Minha principal alegação é que PCA e FA não são tão diferentes quanto se pensa. Eles podem realmente diferir fortemente quando o número de variáveis é muito baixo, mas tendem a produzir resultados bastante semelhantes quando o número de variáveis ultrapassa uma dúzia. Veja minha resposta [longa!] No tópico vinculado para obter detalhes matemáticos e simulações de Monte Carlo. Para uma versão muito mais concisa do meu argumento, veja aqui: Sob quais condições o PCA e o FA produzem resultados semelhantes?
Aqui, gostaria de responder explicitamente à sua pergunta principal: Há algo de errado em executar o PCA e o FA no mesmo conjunto de dados? Minha resposta para isso é: Não.
Ao executar PCA ou FA, você não está testando nenhuma hipótese. Ambas são técnicas exploratórias usadas para obter uma melhor compreensão dos dados. Então, por que não explorar os dados com duas ferramentas diferentes? De fato, vamos fazer isso!
Exemplo: conjunto de dados do vinho
fonte
If the results turn out to be very similar, then you can decide to stick with only one approach
. Certo. Quão parecido então?If the results turn out to be very different, then maybe it tells you something about your data
Isso é perfeitamente místico e esotérico.