Análise de Cluster seguida por Análise Discriminante

10

Qual é a justificativa, se houver, para usar a Análise Discriminante (DA) nos resultados de um algoritmo de agrupamento como k-means, como eu o vejo de tempos em tempos na literatura (essencialmente sobre subtipos clínicos de transtornos mentais)?

Geralmente, não é recomendável testar diferenças de grupo nas variáveis ​​usadas durante a construção do cluster, pois elas suportam a maximização (resp. Minimização) da inércia entre classes (resp. Dentro da classe). Portanto, não tenho certeza de apreciar totalmente o valor agregado da DA preditiva, a menos que procuremos incorporar indivíduos em um espaço fatorial de menor dimensão e ter uma idéia da "generalização" de uma partição. Porém, mesmo nesse caso, a análise de cluster continua sendo fundamentalmente uma ferramenta exploratória; portanto, o uso da associação de classe calculada dessa maneira para derivar ainda mais uma regra de pontuação parece estranho à primeira vista.

Alguma recomendação, idéias ou sugestões para artigos relevantes?

chl
fonte
Aqui está uma explicação e um exemplo usando R: cran.r-project.org/web/packages/adegenet/vignettes/…
Ben

Respostas:

5

Não conheço nenhum artigo sobre isso. Eu usei essa abordagem, para fins descritivos. O DFA fornece uma boa maneira de resumir as diferenças e a dimensionalidade do grupo em relação às variáveis ​​originais. Pode-se facilmente criar um perfil dos grupos nas variáveis ​​originais, no entanto, isso perde a natureza inerentemente multivariada do problema de agrupamento. O DFA permite que você descreva os grupos enquanto mantém intacto o caráter multivariado do problema. Portanto, ele pode ajudar na interpretação dos clusters, onde esse é um objetivo. Isso é particularmente ideal quando há uma estreita relação entre o método de agrupamento e o método de classificação - por exemplo, o DFA e o método de Ward.

Você está certo sobre o problema do teste. Publiquei um artigo usando a Análise de Cluster com acompanhamento do DFA para descrever a solução de cluster. Eu apresentei os resultados do DFA sem estatística de teste. Um revisor teve problemas com isso. Eu concedi e coloquei as estatísticas do teste e os valores de p, com o aviso de que esses valores de p não devem ser interpretados da maneira tradicional.

Brett
fonte
Quais seriam as etapas processuais do DA após o clustering? Você pode pensar em outras técnicas para descobrir quais variáveis ​​originais tornam determinado cluster diferente de outros?
Danas.zuokas
Gostaria de compartilhar a citação desse jornal, Brett?
Roman Luštrik
Weissman & Magill. 2008. "Desenvolvendo uma Tipologia de Aluno para Examinar a Eficácia dos Seminários do Primeiro Ano" Journal of The First Year Experience & Students in Transition 20 (2). Entre em contato comigo offline se desejar uma cópia impressa.
Brett