A notificação após a tabela ANOVA após a análise de médias K indica que os níveis de significância não devem ser encarados como teste de médias iguais, pois a solução de cluster foi derivada com base na distância euclidiana para maximizar a distância. Que teste devo usar para mostrar se as médias das variáveis de clustering diferem entre os clusters? Eu vi esse aviso na tabela ANOVA fornecida pelas saídas k-means, mas em algumas referências vejo que os testes post-hoc ANOVA são executados. Devo ignorar as saídas ANOVA k-mean e executar a ANOVA unidirecional com testes post-hoc e interpretá-las da maneira tradicional? Ou posso apenas sugerir a magnitude do valor F e quais variáveis contribuíram mais para a diferença? Outra confusão é que as variáveis de agrupamento não são normalmente distribuídas, violando a suposição de ANOVA, então eu poderia usar o teste não paramétrico de Kruskal-Wallis, mas ele pressupõe as mesmas distribuições. As distribuições inter-cluster para as variáveis específicas não parecem iguais, algumas são distorcidas positivamente, outras são negativas ... Eu tenho 1275 amostras grandes, 5 clusters, 10 variáveis de cluster medidas nas pontuações PCA.
14
Respostas:
Não!
Você não deve usar os mesmos dados para 1) executar o cluster e 2) procurar diferenças significativas entre os pontos nos clusters. Mesmo se não houver uma estrutura real nos dados, o clustering imporá uma agrupando pontos próximos. Isso reduz a variação dentro do grupo e aumenta a variação entre grupos, o que leva você a obter falsos positivos.
Este efeito é surpreendentemente forte. Aqui estão os resultados de uma simulação que extrai 1000 pontos de dados de uma distribuição normal padrão. Se atribuirmos os pontos a um dos cinco grupos aleatoriamente antes de executar a ANOVA, descobrimos que os valores de p são distribuídos uniformemente: 5% das execuções são significativas no nível 0,05 (não corrigido), 1% no nível 0,01, etc. Em outras palavras, não há efeito. No entanto, sek -means é usado para agrupar os dados em 5 grupos, encontramos um efeito significativo praticamente todas as vezes, mesmo que os dados não tenham estrutura real .
Não há nada de especial em uma ANOVA aqui - você veria efeitos semelhantes usando testes não paramétricos, regressão logística, qualquer coisa. Em geral, validar o desempenho de um algoritmo de cluster é complicado, principalmente se os dados não estiverem rotulados. No entanto, existem algumas abordagens para "validação interna" ou para medir a qualidade dos clusters sem usar fontes de dados externas. Eles geralmente se concentram na compactação e separabilidade dos clusters. Esta revisão por Lui et al. (2010) pode ser um bom lugar para começar.
fonte
Seu problema real é a espionagem de dados. Você não pode aplicar ANOVA ou KW se as observações foram atribuídas a grupos (clusters) com base no próprio conjunto de dados de entrada. O que você pode fazer é usar algo como a estatística Gap para estimar o número de clusters.
Por outro lado, os valores p snooped são enviesados para baixo; portanto, se o resultado do teste ANOVA ou KW for insignificante, o valor p "true" é ainda maior e você pode decidir mesclar os clusters.
fonte
Eu acho que você poderia aplicar essa abordagem (por exemplo, usando estatísticas, como estatísticas F ou estatísticas t ou qualquer outra coisa), se você jogar fora as distribuições nulas usuais .
O que você precisa fazer é simular a partir da situação em que seu nulo é verdadeiro, aplicar todo o procedimento (clustering, etc) e, em seguida, calcular a estatística a cada vez. Aplicado em muitas simulações, você obteria uma distribuição para a estatística abaixo do nulo, com a qual o valor da amostra poderia ser comparado. Ao incorporar a espionagem de dados no cálculo, você considera seu efeito.
[Como alternativa, talvez seja possível desenvolver um teste baseado em reamostragem (seja baseado em permutação / randomização ou inicialização).]
fonte