Posso usar o PCA para fazer a seleção de variáveis ​​para análise de cluster?

12

Eu tenho que reduzir o número de variáveis ​​para realizar uma análise de cluster. Minhas variáveis ​​estão fortemente correlacionadas, então pensei em fazer uma Análise Fatorial PCA (análise de componentes principais). No entanto, se eu usar as pontuações resultantes, meus clusters não estão muito corretos (em comparação com classificações anteriores na literatura).

Questão:

Posso usar a matriz de rotação para selecionar as variáveis ​​com as maiores cargas para cada componente / fator e usar apenas essas variáveis ​​no meu clustering?

Qualquer referência bibliográfica também seria útil.

Atualizar:

Alguns esclarecimentos:

  • Meu objetivo: eu tenho que executar uma análise de clusters com o algoritmo de duas etapas do SPSS, mas minhas variáveis ​​não são independentes, então pensei em descartar algumas delas.

  • >0,9

  • Minha dúvida: como eu só preciso de variáveis ​​independentes, pensei em executar uma Análise de Componente Principal (desculpe: eu falei errado sobre Análise Fatorial na minha pergunta original, meu erro) e selecione apenas as variáveis ​​com maiores cargas para cada componente. Sei que o processo PCA apresenta algumas etapas arbitrárias, mas descobri que essa seleção é realmente semelhante ao " método B4 " proposto por IT Jolliffe (1972 e 2002) para selecionar variáveis ​​e sugerido também por JR King & DA Jackson em 1999 .

    Então, eu estava pensando em selecionar dessa maneira alguns subgrupos de variáveis ​​independentes. Usarei os grupos para executar diferentes análises de cluster e compararei os resultados.

en.
fonte
1
Se você souber a resposta correta, por que fazer a análise?
StasK 14/10
1
Em outra nota, por que você acha que precisa reduzir o número de variáveis ​​para análise de cluster? Eu não acho que nenhuma das ferramentas modernas de análise de cluster tenha limitações quanto ao número de variáveis ​​de entrada. Obviamente, se você fizer um teste com 120 itens, as coisas ficarão complicadas.
StasK
possível duplicata de Usando a análise de componentes principais (PCA) para seleção de recursos
amoeba diz Reinstate Monica
Parece-me que a adição do aspecto de análise de cluster deste Q o torna distinto o suficiente para permanecer aberto.
gung - Restabelece Monica
Você parece aplicar critérios mais estritos a duplicatas do que eu, @gung; talvez você esteja certo (e a votação também não vai bem nesta). No entanto, nesse caso em particular, o OP estava perguntando sobre a seleção mais simples de recursos baseados em PCA (conforme esclarecido em sua atualização) que é abordada no tópico que sugeri. Por outro lado, o StasK postou aqui uma resposta interessante, especificamente sobre agrupamento ...
ameba diz Reinstate Monica

Respostas:

7

Vou, como é meu costume, dar um passo atrás e perguntar exatamente o que você está tentando fazer. A análise fatorial é projetada para encontrar variáveis ​​latentes. Se você deseja encontrar variáveis ​​latentes e agrupá-las, o que está fazendo está correto. Mas você diz que simplesmente deseja reduzir o número de variáveis ​​- o que sugere a análise de componentes principais.

No entanto, com qualquer um deles, é necessário interpretar a análise de cluster em novas variáveis, e essas novas variáveis ​​são simplesmente somas ponderadas das antigas.

Quantas variáveis ​​você tem? Quão correlacionados eles são? Se houver muitos, e eles estiverem fortemente correlacionados, você poderá procurar todas as correlações em um número muito alto e excluir aleatoriamente uma variável de cada par. Isso reduz o número de variáveis ​​e deixa as variáveis ​​como estão.

Permitam-me também fazer eco ao @StasK sobre a necessidade de fazer isso e @ rolando2 sobre a utilidade de encontrar algo diferente do que foi encontrado antes. Como meu professor favorito na pós-graduação dizia "Se você não está surpreso, não aprendeu nada".

Peter Flom - Restabelecer Monica
fonte
1
Antes de tudo, desculpe-me: na verdade, estou me referindo a uma análise de componentes principais, não a uma análise fatorial, meu erro. Além disso, eu estava procurando encontrar uma maneira de não selecionar arbitrariamente a variável correlacionada que devo manter. Eu adiciono mais informações sobre o problema acima .. obrigado novamente
pt.
5

Uma maneira de realizar análise fatorial e análise de cluster ao mesmo tempo é através de modelos de mistura de equações estruturais. Nesses modelos, você postula que existem modelos separados (nesse caso, modelos de fator) para cada cluster. Você precisaria ter a análise da média juntamente com a análise de covariância e se preocupar com a identificação em maior medida do que na análise simples do fator de baunilha. A idéia abordada do lado SEM aparece em Jedidi et. al. (1997) , e do lado do clustering, no clustering baseado em modelo de Adrian Raftery . Aparentemente, esse tipo de análise está disponível no Mplus .

StasK
fonte
1
obrigado pelas entradas, especialmente pelas referências, mas me referi erroneamente à Análise fatorial: eu estava realmente pensando nos componentes principais para reduzir minhas variáveis ​​definidas para um subgrupo de variáveis ​​independentes. meu erro
pt.
2

Eu não acho que seja uma questão de "correção" pura e simples, mas sim se ela conseguirá o que você deseja fazer. A abordagem que você descreve terminará em cluster de acordo com certos fatores, de maneira diluída, pois você usará apenas um indicador para representar cada fator. Cada um desses indicadores é um substituto imperfeito para o fator latente subjacente. Essa é uma questão.

Outra questão é que a própria análise fatorial, como eu (e muitas outras pessoas) recontamos , está cheia de decisões subjetivas que envolvem como lidar com dados ausentes, número de fatores a serem extraídos, como extrair, se e como girar, etc. em. Portanto, pode estar longe de ficar claro que os fatores que você pode ter extraído de maneira rápida e padrão de software (como eu acho você sugeriu) são os "melhores" em qualquer sentido.

Ao todo, então, você pode ter usado versões diluídas de fatores que são discutíveis por serem as melhores maneiras de caracterizar os temas subjacentes aos seus dados. Eu não esperaria que os clusters resultantes dessas variáveis ​​de entrada fossem os mais informativos ou os mais distintos.

Em outra nota, parece interessante que você considere um problema ter associações / perfis de cluster que não estejam alinhados com o que outros pesquisadores descobriram. Às vezes, resultados não confirmados podem ser muito saudáveis!

rolando2
fonte
muito obrigado, adicionei mais informações acima para especificar minhas dúvidas
pt.
0

O que poderia estar acontecendo no seu caso é que os fatores extraídos na Análise Fatorial compensam cargas positivas e negativas das variáveis ​​originais. Isso diminuiria a diferenciabilidade que é o objetivo do agrupamento.

Você pode dividir cada fator extraído em 2 - um tendo apenas as cargas positivas, o outro apenas as cargas negativas?

Substitua as pontuações fatoriais para cada caso de cada fator por pontuações positivas e negativas e tente agrupar nesse novo conjunto de pontuações.

Por favor, insira uma linha se isso funcionar para você.

A Bose
fonte
0

Você pode procurar valores altos e também valores baixos e deixar todas as variáveis ​​nos fatores. Dessa forma, não há necessidade de reduzir os fatores. Se você dividir o Fator 1 (digamos) de uma certa maneira, com base nos sinais das cargas, no Fator 2, os sinais podem ser bem diferentes. Você cortaria o fator 2 de maneira diferente do fator 1? Isso parece ser confuso.

Raid Amin
fonte