Estou pesquisando o uso do teste de significância estatística (SST) para validar os resultados da análise de cluster. Encontrei vários artigos sobre esse tópico, como
- " Significância estatística do agrupamento para dados de alta dimensão e tamanho de amostra baixo ", de Liu, Yufeng et al. (2008)
- " Em alguns testes de significância na análise de agrupamentos ", de Bock (1985)
Mas estou interessado em encontrar alguma literatura argumentando que o SST NÃO é apropriado para validar os resultados da análise de cluster. A única fonte que encontrei alegando que isso é uma página da Web de um fornecedor de software
Esclarecer:
Estou interessado em testar se uma estrutura significativa de clusters foi encontrada como resultado da análise de clusters. Portanto, gostaria de saber sobre documentos que apóiam ou refutam a preocupação "sobre a possibilidade de testes post-hoc dos resultados de dados exploratórios análise usada para encontrar clusters ".
Acabei de encontrar um artigo de 2003, " Métodos de agrupamento e classificação ", de Milligan e Hirtle , dizendo, por exemplo, que o uso da ANOVA seria uma análise inválida, pois os dados não têm atribuições aleatórias para os grupos.
Respostas:
É bastante óbvio que você não pode (ingenuamente) testar a diferença nas distribuições para grupos que foram definidos usando os mesmos dados. Isso é conhecido como "teste seletivo", "imersão dupla", "inferência circular" etc.
Um exemplo seria realizar um teste t nas alturas das pessoas "altas" e "baixas" nos seus dados. O nulo (quase) sempre será rejeitado.
Dito isto, pode-se de fato explicar o estágio de agrupamento no estágio de teste. No entanto, não estou familiarizado com uma referência específica que faça isso, mas suspeito que isso deveria ter sido feito.
fonte
Em vez de testar hipóteses com um determinado teste, eu recomendaria meios de inicialização ou outras estimativas sumárias entre clusters. Por exemplo, você pode confiar no bootstrap de percentil com pelo menos 1000 amostras. O ponto principal é aplicar o clustering independentemente a cada amostra de autoinicialização.
Essa abordagem seria bastante robusta, fornecer evidências de diferenças e apoiar sua alegação de diferença significativa entre os cluster. Além disso, você pode gerar outra variável (por exemplo, diferença entre cluster) e as estimativas de autoinicialização dessa variável de diferença seriam semelhantes a um teste formal de hipótese.
fonte