O k-means pode ser usado para dados não distribuídos normalmente?

9

Eu li muitos artigos que testam o k-means com muitos conjuntos de dados que normalmente não são distribuídos como o conjunto de dados da íris e obtêm bons resultados. Como entendo que o k-means é para dados normalmente distribuídos, por que o k-means está sendo usado para dados não distribuídos normalmente?

Por exemplo, o artigo abaixo modificou os centróides de k-médias com base em uma curva de distribuição normal e testou o algoritmo com o conjunto de dados da íris que normalmente não é distribuído.

quase todos os inliers (precisamente 99,73%) apontam para distâncias centróides dentro de 3 desvios padrão (𝜎) da média da população.

Existe algo que eu não estou entendendo aqui?

do utilizador
fonte
11
E se este simplesmente for um papel muito ruim? Não parece um local de alta classe para mim.
QuIT - Anony-Mousse 2/19/19
11
A alegação citada no artigo é precedida pela suposição de que os dados são normais. O que é desnecessariamente restritivo nesse artigo é a afirmação de que o k-means assume normalidade, sugerindo que não poderia ser um procedimento de agrupamento satisfatório se os dados não forem conjuntamente normais.
CloseToC 02/09/19
o artigo foi publicado no IEEE
usuário
11
Minha pergunta foi relacionada ao conjunto experimental de dados da íris no mesmo artigo. Como noto que o conjunto de dados da íris não é normalmente distribuído. kaggle.com/saurabh00007/iriscsv
user
Bem, você verificou qual% de inliers no irisconjunto de dados está realmente a 3 sd dos centróides? Provavelmente ainda é verdade, mas não segue automaticamente se a distribuição não for normal. Presumivelmente, os autores precisam apenas adicionar uma linha que esclareça isso.
smci 2/09/19

Respostas:

12

Aqui está a citação completa:

K-significa, sendo uma instância do Gaussian Mixture Model (GMM), assume a distribuição de dados gaussiana [20] [26]. Segue-se que quase todos os inliers (precisamente 99,73%) terão distâncias ponto a centróide dentro de três desvios padrão ( ) da média da população.σ

Aparece na seção IV.A.

O aplicativo para o conjunto de dados Iris, que, como você observa, normalmente não é distribuído, aparece na seção V ("Experiências").

Não vejo um problema lógico em observar primeiro as propriedades de um algoritmo sob certas suposições, como normalidade, e depois testá-lo nos casos em que a suposição não é válida.

E, é claro, k-means podem ser aplicados a qualquer conjunto de dados. Se produz resultados úteis é uma questão diferente.

Stephan Kolassa
fonte
Obrigado, a suposição de ponto como média dentro do desvio padrão pode ser aceitável em um conjunto de dados distribuídos fora do normal?
usuário
Depende da distribuição que você assume.
Stephan Kolassa 02/09/19
Você pode explicar mais?. Se eu tiver um conjunto de dados distribuído correto e inclinado, posso adicionar valores extremos> média + 4 std e seguir a mesma suposição de papel para detectá-lo ?.
usuário
Se você começar com uma premissa distributiva, não poderá simplesmente "adicionar discrepantes". A probabilidade de "outliers" depende da distribuição que você está assumindo. (O que é um "outlier" também é frequentemente questionável.) Se algo sobre o artigo não estiver claro, provavelmente seria melhor formular uma nova pergunta.
Stephan Kolassa
Os erros são adicionados a cada recurso deste documento (5% a 20% do conjunto de dados). Caso algo não esteja claro sobre este artigo, farei outra pergunta. Muito obrigado.
usuário
7

Não sei ao certo qual é a pergunta, mas o desvio padrão não é definido apenas para distribuições normais. É uma medida relevante para todas as distribuições de dados. Quanto mais longe você estiver da média (em termos de padrão), mais improvável será esse ponto. A única coisa especial sobre a distribuição normal, em relação ao desvio padrão, é que você sabe a probabilidade de um ponto ocorrer dentro de 1, 2 ou 3 desvios padrão (por exemplo, você sabe que um ponto tem uma probabilidade de 99,7% de permanecer dentro de desvios-padrão da média).±3

No entanto, isso não significa que o desvio padrão seja irrelevante para outras distribuições (possivelmente desconhecidas). Ainda é relevante, mas você não sabe a probabilidade associada a ele.

CaucM
fonte
ok, quero dizer, mas neste documento, o conjunto de dados não é normalmente distribuído e ainda assume dados (99,7% deve estar dentro de ± 3 desvios-padrão da média). minha pergunta relacionada a este ponto
usuário
Eu acho que você está certo. Esta suposição é falsa, na minha opinião.
CaucM 02/09/19
6
The farther away you are from the mean (in terms of std) the more unlikely this point is to occur.Isso pode não ser verdade para distribuições multimodais.
JAD
Você sabe como é provável que algum evento ocorra dentro de 1, 2 ou 3 desvios padrão também para outras distribuições, portanto isso não é realmente especial. Uma coisa especial é que, para uma determinada média e variação, a distribuição normal é a que apresenta maior entropia; portanto, se você souber apenas média e variação, você a escolherá pelo princípio da entropia máxima pt.wikipedia.org/wiki / Principle_of_maximum_entropy
etarion
Esta regra pode ser trabalhada para outras distribuições?
usuário