Perguntas com a marcação «clustering»

8
Resultados adversos dos critérios de agrupamento

Fiz um agrupamento de pontos de coordenadas (longitude, latitude) e encontrei resultados adversos surpreendentes dos critérios de agrupamento para o número ideal de agrupamentos. Os critérios são retirados do clusterCrit()pacote. Os pontos que estou tentando agrupar em um gráfico (as...

8
Mapas auto-organizados vs. k-means do kernel

Para um aplicativo, quero agrupar dados (potencialmente dimensionais) e extrair a probabilidade de pertencer a um cluster. Eu considero no momento mapas auto-organizados ou kernel significa fazer o trabalho. Quais são os prós e os contras de cada classificador para esta tarefa? Estou com saudades...

8
Por que um modelo estatístico superajustaria se recebesse um grande conjunto de dados?

Meu projeto atual pode exigir que eu construa um modelo para prever o comportamento de um determinado grupo de pessoas. o conjunto de dados de treinamento contém apenas 6 variáveis ​​(id é apenas para fins de identificação): id, age, income, gender, job category, monthly spend em que monthly...

8
Clusters que podem ser causados ​​por meios K

Eu recebi a seguinte pergunta como uma pergunta de teste para o meu exame e simplesmente não consigo entender a resposta. Um gráfico de dispersão dos dados projetados nos dois primeiros componentes principais é mostrado abaixo. Desejamos examinar se existe alguma estrutura de grupo no conjunto de...

8
Usando k-means com outras métricas

Então, percebo que isso já foi perguntado antes: por exemplo, quais são os casos de uso relacionados à análise de cluster de diferentes métricas de distância? mas achei as respostas um tanto contraditórias ao sugerido que deveriam ser possíveis na literatura. Recentemente, li dois artigos que...

8
A melhor maneira de agrupar uma matriz de adjacência

Foi difícil interpretar clusters resultantes de uma matriz de adjacência. Eu tenho 200 matrizes relativamente grandes que representam assuntos que contêm correlações parciais (escores z) de séries temporais (dados neurais). O objetivo é agrupar essas 210 matrizes e detectar possíveis comunidades...

8
Como executar SVD para atribuir valores ausentes, um exemplo concreto

Eu li os ótimos comentários sobre como lidar com valores ausentes antes de aplicar o SVD, mas gostaria de saber como ele funciona com um exemplo simples: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Dada a matriz acima, se eu remover os valores de NA, acabarei...

8
algoritmo k-means ++ e valores discrepantes

É sabido que o algoritmo k-means sofre na presença de outliers. O k-means ++ é um método eficaz para a initalização do centro de cluster. Eu estava analisando o PPT pelos fundadores do método, Sergei Vassilvitskii e David Arthur http://theory.stanford.edu/~sergei/slides/BATS-Means.pdf (slide 28),...