Eu li muitos artigos que testam o k-means com muitos conjuntos de dados que normalmente não são distribuídos como o conjunto de dados da íris e obtêm bons resultados. Como entendo que o k-means é para dados normalmente distribuídos, por que o k-means está sendo usado para dados não distribuídos normalmente?
Por exemplo, o artigo abaixo modificou os centróides de k-médias com base em uma curva de distribuição normal e testou o algoritmo com o conjunto de dados da íris que normalmente não é distribuído.
quase todos os inliers (precisamente 99,73%) apontam para distâncias centróides dentro de 3 desvios padrão (𝜎) da média da população.
Existe algo que eu não estou entendendo aqui?
fonte
iris
conjunto de dados está realmente a 3 sd dos centróides? Provavelmente ainda é verdade, mas não segue automaticamente se a distribuição não for normal. Presumivelmente, os autores precisam apenas adicionar uma linha que esclareça isso.Respostas:
Aqui está a citação completa:
Aparece na seção IV.A.
O aplicativo para o conjunto de dados Iris, que, como você observa, normalmente não é distribuído, aparece na seção V ("Experiências").
Não vejo um problema lógico em observar primeiro as propriedades de um algoritmo sob certas suposições, como normalidade, e depois testá-lo nos casos em que a suposição não é válida.
E, é claro, k-means podem ser aplicados a qualquer conjunto de dados. Se produz resultados úteis é uma questão diferente.
fonte
Não sei ao certo qual é a pergunta, mas o desvio padrão não é definido apenas para distribuições normais. É uma medida relevante para todas as distribuições de dados. Quanto mais longe você estiver da média (em termos de padrão), mais improvável será esse ponto. A única coisa especial sobre a distribuição normal, em relação ao desvio padrão, é que você sabe a probabilidade de um ponto ocorrer dentro de 1, 2 ou 3 desvios padrão (por exemplo, você sabe que um ponto tem uma probabilidade de 99,7% de permanecer dentro de desvios-padrão da média).±3
No entanto, isso não significa que o desvio padrão seja irrelevante para outras distribuições (possivelmente desconhecidas). Ainda é relevante, mas você não sabe a probabilidade associada a ele.
fonte
The farther away you are from the mean (in terms of std) the more unlikely this point is to occur.
Isso pode não ser verdade para distribuições multimodais.