Qual é a justificativa, se houver, para usar a Análise Discriminante (DA) nos resultados de um algoritmo de agrupamento como k-means, como eu o vejo de tempos em tempos na literatura (essencialmente sobre subtipos clínicos de transtornos mentais)?
Geralmente, não é recomendável testar diferenças de grupo nas variáveis usadas durante a construção do cluster, pois elas suportam a maximização (resp. Minimização) da inércia entre classes (resp. Dentro da classe). Portanto, não tenho certeza de apreciar totalmente o valor agregado da DA preditiva, a menos que procuremos incorporar indivíduos em um espaço fatorial de menor dimensão e ter uma idéia da "generalização" de uma partição. Porém, mesmo nesse caso, a análise de cluster continua sendo fundamentalmente uma ferramenta exploratória; portanto, o uso da associação de classe calculada dessa maneira para derivar ainda mais uma regra de pontuação parece estranho à primeira vista.
Alguma recomendação, idéias ou sugestões para artigos relevantes?
R
: cran.r-project.org/web/packages/adegenet/vignettes/…Respostas:
Não conheço nenhum artigo sobre isso. Eu usei essa abordagem, para fins descritivos. O DFA fornece uma boa maneira de resumir as diferenças e a dimensionalidade do grupo em relação às variáveis originais. Pode-se facilmente criar um perfil dos grupos nas variáveis originais, no entanto, isso perde a natureza inerentemente multivariada do problema de agrupamento. O DFA permite que você descreva os grupos enquanto mantém intacto o caráter multivariado do problema. Portanto, ele pode ajudar na interpretação dos clusters, onde esse é um objetivo. Isso é particularmente ideal quando há uma estreita relação entre o método de agrupamento e o método de classificação - por exemplo, o DFA e o método de Ward.
Você está certo sobre o problema do teste. Publiquei um artigo usando a Análise de Cluster com acompanhamento do DFA para descrever a solução de cluster. Eu apresentei os resultados do DFA sem estatística de teste. Um revisor teve problemas com isso. Eu concedi e coloquei as estatísticas do teste e os valores de p, com o aviso de que esses valores de p não devem ser interpretados da maneira tradicional.
fonte