Adequação da ANOVA após análise de cluster k-means

14

A notificação após a tabela ANOVA após a análise de médias K indica que os níveis de significância não devem ser encarados como teste de médias iguais, pois a solução de cluster foi derivada com base na distância euclidiana para maximizar a distância. Que teste devo usar para mostrar se as médias das variáveis ​​de clustering diferem entre os clusters? Eu vi esse aviso na tabela ANOVA fornecida pelas saídas k-means, mas em algumas referências vejo que os testes post-hoc ANOVA são executados. Devo ignorar as saídas ANOVA k-mean e executar a ANOVA unidirecional com testes post-hoc e interpretá-las da maneira tradicional? Ou posso apenas sugerir a magnitude do valor F e quais variáveis ​​contribuíram mais para a diferença? Outra confusão é que as variáveis ​​de agrupamento não são normalmente distribuídas, violando a suposição de ANOVA, então eu poderia usar o teste não paramétrico de Kruskal-Wallis, mas ele pressupõe as mesmas distribuições. As distribuições inter-cluster para as variáveis ​​específicas não parecem iguais, algumas são distorcidas positivamente, outras são negativas ... Eu tenho 1275 amostras grandes, 5 clusters, 10 variáveis ​​de cluster medidas nas pontuações PCA.

Inga
fonte
Por que você precisa testar a igualdade de meios? Você não pode simplesmente testar como o seu modelo funciona fora da amostra?
James
Eu queria determinar quais variáveis ​​'significam diferenças entre os clusters, ou seja, se a média de v1 no cluster1 é diferente da média de v1 no cluster, 2, 3, 4, 5. É claro que posso ver isso fazendo um gráfico, mas sim não conte sobre a diferença estatística. O teste de diferença estatística me deixou confuso, pois, para a ANOVA, meus dados não atingiram a premissa de distribuição normal, mas para Kruskal Wallis testam a mesma premissa de distribuição de forma entre os grupos de agrupamentos.
Inga
1
Como @James apontou em sua resposta, você está "bisbilhotando". Qual poderia ser um motivo para testar a significância entre grupos que você (seu agrupamento) pré - selecionou para diferir o máximo possível? Não há nenhum sinal de amostragem aleatória ou proporcional de populações distintas com base em algumas características externas de backgroud.
ttnphns
Obrigado pelas respostas! Minha confusão apareceu, pois em algumas fontes vejo que as comparações médias estatísticas não são apropriadas nessa situação, como você também apontou, mas, por exemplo, uma citação do capítulo de 1 livro indica o oposto: "geralmente examinamos as médias de cada cluster em cada dimensão usando ANOVA para avaliar quão distintos são os nossos clusters. Idealmente, obteríamos meios significativamente diferentes para a maioria, senão todas as dimensões, usadas na análise. A magnitude dos valores F realizados em cada dimensão é uma indicação de quão bem a respectiva dimensão discrimina entre clusters "
Inga
1
Você tem o direito de avaliar as diferenças entre os clusters pelas características usadas para agrupar - a fim de descobrir os mais discriminativos. Ao fazer isso, você pode calcular diferenças relativas, Fs e até valores de p. Como indicadores do tamanho do efeito. Não como indicadores de significância estatística (que se referem a populações).
ttnphns

Respostas:

13

Não!

Você não deve usar os mesmos dados para 1) executar o cluster e 2) procurar diferenças significativas entre os pontos nos clusters. Mesmo se não houver uma estrutura real nos dados, o clustering imporá uma agrupando pontos próximos. Isso reduz a variação dentro do grupo e aumenta a variação entre grupos, o que leva você a obter falsos positivos.

Este efeito é surpreendentemente forte. Aqui estão os resultados de uma simulação que extrai 1000 pontos de dados de uma distribuição normal padrão. Se atribuirmos os pontos a um dos cinco grupos aleatoriamente antes de executar a ANOVA, descobrimos que os valores de p são distribuídos uniformemente: 5% das execuções são significativas no nível 0,05 (não corrigido), 1% no nível 0,01, etc. Em outras palavras, não há efeito. No entanto, sek-means é usado para agrupar os dados em 5 grupos, encontramos um efeito significativo praticamente todas as vezes, mesmo que os dados não tenham estrutura real .

Resultados de simulação mostrando uma distribuição uniforme de pvalores para as atribuições aleatórias e uma distribuição altamente distorcida (quase todos de 0,05 ou menos) dos valores de p após o agrupamento

Não há nada de especial em uma ANOVA aqui - você veria efeitos semelhantes usando testes não paramétricos, regressão logística, qualquer coisa. Em geral, validar o desempenho de um algoritmo de cluster é complicado, principalmente se os dados não estiverem rotulados. No entanto, existem algumas abordagens para "validação interna" ou para medir a qualidade dos clusters sem usar fontes de dados externas. Eles geralmente se concentram na compactação e separabilidade dos clusters. Esta revisão por Lui et al. (2010) pode ser um bom lugar para começar.

Matt Krause
fonte
4

Seu problema real é a espionagem de dados. Você não pode aplicar ANOVA ou KW se as observações foram atribuídas a grupos (clusters) com base no próprio conjunto de dados de entrada. O que você pode fazer é usar algo como a estatística Gap para estimar o número de clusters.

Por outro lado, os valores p snooped são enviesados ​​para baixo; portanto, se o resultado do teste ANOVA ou KW for insignificante, o valor p "true" é ainda maior e você pode decidir mesclar os clusters.

James
fonte
4

Eu acho que você poderia aplicar essa abordagem (por exemplo, usando estatísticas, como estatísticas F ou estatísticas t ou qualquer outra coisa), se você jogar fora as distribuições nulas usuais .

O que você precisa fazer é simular a partir da situação em que seu nulo é verdadeiro, aplicar todo o procedimento (clustering, etc) e, em seguida, calcular a estatística a cada vez. Aplicado em muitas simulações, você obteria uma distribuição para a estatística abaixo do nulo, com a qual o valor da amostra poderia ser comparado. Ao incorporar a espionagem de dados no cálculo, você considera seu efeito.

[Como alternativa, talvez seja possível desenvolver um teste baseado em reamostragem (seja baseado em permutação / randomização ou inicialização).]

Glen_b -Reinstate Monica
fonte
2
Certo, essa é a ideia por trás da estatística Gap.
James