Usando o teste de significância estatística para validar os resultados da análise de cluster

13

Estou pesquisando o uso do teste de significância estatística (SST) para validar os resultados da análise de cluster. Encontrei vários artigos sobre esse tópico, como

  • " Significância estatística do agrupamento para dados de alta dimensão e tamanho de amostra baixo ", de Liu, Yufeng et al. (2008)
  • " Em alguns testes de significância na análise de agrupamentos ", de Bock (1985)

Mas estou interessado em encontrar alguma literatura argumentando que o SST NÃO é apropriado para validar os resultados da análise de cluster. A única fonte que encontrei alegando que isso é uma página da Web de um fornecedor de software

Esclarecer:

Estou interessado em testar se uma estrutura significativa de clusters foi encontrada como resultado da análise de clusters. Portanto, gostaria de saber sobre documentos que apóiam ou refutam a preocupação "sobre a possibilidade de testes post-hoc dos resultados de dados exploratórios análise usada para encontrar clusters ".

Acabei de encontrar um artigo de 2003, " Métodos de agrupamento e classificação ", de Milligan e Hirtle , dizendo, por exemplo, que o uso da ANOVA seria uma análise inválida, pois os dados não têm atribuições aleatórias para os grupos.

DPS
fonte
Essa é uma boa pergunta, mas pode valer a pena ressaltar que ela é formulada de maneira a parecer uma dicotomia: ou você pode testar a importância do agrupamento ou não. A situação é diferente, porém, porque "análise de cluster" significa várias coisas. Nos trabalhos mencionados, o foco está em testar se há evidências de agrupamento. No manual do software, a preocupação é justamente expressa sobre a possibilidade de testes post-hoc dos resultados da análise exploratória de dados usada para encontrar clusters. Não há contradição aqui.
whuber
Obrigado por responder. Você está certo sobre a maneira como eu fiz a pergunta. Estou interessado em testar se uma estrutura significativa de clusters foi encontrada como resultado da análise de clusters. Portanto, gostaria de saber sobre documentos que apóiam ou refutam a preocupação "sobre a possibilidade de testes post-hoc dos resultados de dados exploratórios análise usada para encontrar clusters ". Acabei de encontrar um artigo de 2003 sobre "Métodos de clusterização e classificação" de Milligan e Hirtle dizendo, por exemplo, que o uso da ANOVA seria uma análise inválida, pois os dados não têm atribuições aleatórias para os grupos.
DPS
Podem ajudar: Blinded pela ciência: as consequências de gestão de soluções de análise de cluster inadequadamente validados, mrs.org.uk/ijmr_article/article/78841
rolando2

Respostas:

3

É bastante óbvio que você não pode (ingenuamente) testar a diferença nas distribuições para grupos que foram definidos usando os mesmos dados. Isso é conhecido como "teste seletivo", "imersão dupla", "inferência circular" etc.

Um exemplo seria realizar um teste t nas alturas das pessoas "altas" e "baixas" nos seus dados. O nulo (quase) sempre será rejeitado.

Dito isto, pode-se de fato explicar o estágio de agrupamento no estágio de teste. No entanto, não estou familiarizado com uma referência específica que faça isso, mas suspeito que isso deveria ter sido feito.

JohnRos
fonte
Concordo que o nulo quase sempre será rejeitado ao aplicar um teste de significância nos diferentes grupos de clusters. Embora - esse deve ser o caso apenas se o cluster conseguir realmente separar grupos de maneira agradável para todas as variáveis ​​consideradas na CA? Não se pode usar um teste de significância para determinar se existem variáveis ​​que não estão bem separadas entre os grupos (ou seja, aplicar um teste para cada variável)? Poderia, por favor, explicar a razão estatística por que isso não é recomendado / sensato?
luke
O argumento formal é que o termo de erro de cada medição não é centrado em torno de zero. Pense no meu exemplo alto / baixo: todas as pessoas são retiradas da mesma distribuição, mas o grupo "alto" tem erros com média positiva e a média negativa "curta".
31916 JohnRos
0

Em vez de testar hipóteses com um determinado teste, eu recomendaria meios de inicialização ou outras estimativas sumárias entre clusters. Por exemplo, você pode confiar no bootstrap de percentil com pelo menos 1000 amostras. O ponto principal é aplicar o clustering independentemente a cada amostra de autoinicialização.

Essa abordagem seria bastante robusta, fornecer evidências de diferenças e apoiar sua alegação de diferença significativa entre os cluster. Além disso, você pode gerar outra variável (por exemplo, diferença entre cluster) e as estimativas de autoinicialização dessa variável de diferença seriam semelhantes a um teste formal de hipótese.

Joe_74
fonte