Perguntas com a marcação «k-means»

9
Escolhendo clusters para k-means: o caso de 1 cluster

Alguém conhece um bom método para determinar se o agrupamento usando kmeans é apropriado? Ou seja, e se sua amostra for realmente homogênea? Eu sei que algo como um modelo de mistura (via mclust em R) fornecerá estatísticas de ajuste para o caso de cluster 1: k, mas parece que todas as técnicas...

9
Como comparar eventos observados x eventos esperados?

Suponha que eu tenha uma amostra de frequências de 4 eventos possíveis: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 e tenho as probabilidades esperadas de meus eventos ocorrerem: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Com a soma das frequências observadas dos meus quatro eventos (18), posso calcular as...

9
Critérios de cotovelo para determinar o número de aglomerados

É mencionado aqui que um dos métodos para determinar o número ideal de clusters em um conjunto de dados é o "método do cotovelo". Aqui, a porcentagem de variação é calculada como a razão da variação entre os grupos e a variação total. Senti-me difícil ao entender esse cálculo. Alguém pode explicar...

9
Ciclagem no algoritmo k-means

Segundo o wiki, o critério de convergência mais utilizado é "a atribuição não mudou". Eu queria saber se o ciclismo pode ocorrer se usarmos esse critério de convergência? Eu ficaria satisfeito se alguém apontasse uma referência a um artigo que dê um exemplo de ciclismo ou prove que isso é...

8
Usando k-means com outras métricas

Então, percebo que isso já foi perguntado antes: por exemplo, quais são os casos de uso relacionados à análise de cluster de diferentes métricas de distância? mas achei as respostas um tanto contraditórias ao sugerido que deveriam ser possíveis na literatura. Recentemente, li dois artigos que...

8
Clusters que podem ser causados ​​por meios K

Eu recebi a seguinte pergunta como uma pergunta de teste para o meu exame e simplesmente não consigo entender a resposta. Um gráfico de dispersão dos dados projetados nos dois primeiros componentes principais é mostrado abaixo. Desejamos examinar se existe alguma estrutura de grupo no conjunto de...

8
algoritmo k-means ++ e valores discrepantes

É sabido que o algoritmo k-means sofre na presença de outliers. O k-means ++ é um método eficaz para a initalização do centro de cluster. Eu estava analisando o PPT pelos fundadores do método, Sergei Vassilvitskii e David Arthur http://theory.stanford.edu/~sergei/slides/BATS-Means.pdf (slide 28),...