Eu tenho que reduzir o número de variáveis para realizar uma análise de cluster. Minhas variáveis estão fortemente correlacionadas, então pensei em fazer uma Análise Fatorial PCA (análise de componentes principais). No entanto, se eu usar as pontuações resultantes, meus clusters não estão muito corretos (em comparação com classificações anteriores na literatura).
Questão:
Posso usar a matriz de rotação para selecionar as variáveis com as maiores cargas para cada componente / fator e usar apenas essas variáveis no meu clustering?
Qualquer referência bibliográfica também seria útil.
Atualizar:
Alguns esclarecimentos:
Meu objetivo: eu tenho que executar uma análise de clusters com o algoritmo de duas etapas do SPSS, mas minhas variáveis não são independentes, então pensei em descartar algumas delas.
Minha dúvida: como eu só preciso de variáveis independentes, pensei em executar uma Análise de Componente Principal (desculpe: eu falei errado sobre Análise Fatorial na minha pergunta original, meu erro) e selecione apenas as variáveis com maiores cargas para cada componente. Sei que o processo PCA apresenta algumas etapas arbitrárias, mas descobri que essa seleção é realmente semelhante ao " método B4 " proposto por IT Jolliffe (1972 e 2002) para selecionar variáveis e sugerido também por JR King & DA Jackson em 1999 .
Então, eu estava pensando em selecionar dessa maneira alguns subgrupos de variáveis independentes. Usarei os grupos para executar diferentes análises de cluster e compararei os resultados.
Respostas:
Vou, como é meu costume, dar um passo atrás e perguntar exatamente o que você está tentando fazer. A análise fatorial é projetada para encontrar variáveis latentes. Se você deseja encontrar variáveis latentes e agrupá-las, o que está fazendo está correto. Mas você diz que simplesmente deseja reduzir o número de variáveis - o que sugere a análise de componentes principais.
No entanto, com qualquer um deles, é necessário interpretar a análise de cluster em novas variáveis, e essas novas variáveis são simplesmente somas ponderadas das antigas.
Quantas variáveis você tem? Quão correlacionados eles são? Se houver muitos, e eles estiverem fortemente correlacionados, você poderá procurar todas as correlações em um número muito alto e excluir aleatoriamente uma variável de cada par. Isso reduz o número de variáveis e deixa as variáveis como estão.
Permitam-me também fazer eco ao @StasK sobre a necessidade de fazer isso e @ rolando2 sobre a utilidade de encontrar algo diferente do que foi encontrado antes. Como meu professor favorito na pós-graduação dizia "Se você não está surpreso, não aprendeu nada".
fonte
Uma maneira de realizar análise fatorial e análise de cluster ao mesmo tempo é através de modelos de mistura de equações estruturais. Nesses modelos, você postula que existem modelos separados (nesse caso, modelos de fator) para cada cluster. Você precisaria ter a análise da média juntamente com a análise de covariância e se preocupar com a identificação em maior medida do que na análise simples do fator de baunilha. A idéia abordada do lado SEM aparece em Jedidi et. al. (1997) , e do lado do clustering, no clustering baseado em modelo de Adrian Raftery . Aparentemente, esse tipo de análise está disponível no Mplus .
fonte
Eu não acho que seja uma questão de "correção" pura e simples, mas sim se ela conseguirá o que você deseja fazer. A abordagem que você descreve terminará em cluster de acordo com certos fatores, de maneira diluída, pois você usará apenas um indicador para representar cada fator. Cada um desses indicadores é um substituto imperfeito para o fator latente subjacente. Essa é uma questão.
Outra questão é que a própria análise fatorial, como eu (e muitas outras pessoas) recontamos , está cheia de decisões subjetivas que envolvem como lidar com dados ausentes, número de fatores a serem extraídos, como extrair, se e como girar, etc. em. Portanto, pode estar longe de ficar claro que os fatores que você pode ter extraído de maneira rápida e padrão de software (como eu acho você sugeriu) são os "melhores" em qualquer sentido.
Ao todo, então, você pode ter usado versões diluídas de fatores que são discutíveis por serem as melhores maneiras de caracterizar os temas subjacentes aos seus dados. Eu não esperaria que os clusters resultantes dessas variáveis de entrada fossem os mais informativos ou os mais distintos.
Em outra nota, parece interessante que você considere um problema ter associações / perfis de cluster que não estejam alinhados com o que outros pesquisadores descobriram. Às vezes, resultados não confirmados podem ser muito saudáveis!
fonte
O que poderia estar acontecendo no seu caso é que os fatores extraídos na Análise Fatorial compensam cargas positivas e negativas das variáveis originais. Isso diminuiria a diferenciabilidade que é o objetivo do agrupamento.
Você pode dividir cada fator extraído em 2 - um tendo apenas as cargas positivas, o outro apenas as cargas negativas?
Substitua as pontuações fatoriais para cada caso de cada fator por pontuações positivas e negativas e tente agrupar nesse novo conjunto de pontuações.
Por favor, insira uma linha se isso funcionar para você.
fonte
Você pode procurar valores altos e também valores baixos e deixar todas as variáveis nos fatores. Dessa forma, não há necessidade de reduzir os fatores. Se você dividir o Fator 1 (digamos) de uma certa maneira, com base nos sinais das cargas, no Fator 2, os sinais podem ser bem diferentes. Você cortaria o fator 2 de maneira diferente do fator 1? Isso parece ser confuso.
fonte