Perguntas com a marcação «clustering»

8

Detectando Clusters em uma Sequência Binária

Eu tenho uma sequência binária como 11111011011110101100000000000100101011011111101111100000000000011010100000010000000011101111 Onde clusters de 1s são seguidos por um número maior de zeros, como na figura abaixo (preto significa 1): Eu gostaria de aplicar uma técnica (preferencialmente em R...

8

Analise uma partida de futebol: jogadores semelhantes com DBSCAN e trajetórias semelhantes com TRACLUS

Estou tentando analisar um conjunto de dados que se origina de sensores localizados perto dos sapatos dos jogadores em uma partida ( http://www.orgs.ttu.edu/debs2013/index.php?goto=cfchallengedetails ). Decidi analisar o cluster para identificar: Trajetórias similares de jogadores na partida...

clustering

8

Resultados adversos dos critérios de agrupamento

Fiz um agrupamento de pontos de coordenadas (longitude, latitude) e encontrei resultados adversos surpreendentes dos critérios de agrupamento para o número ideal de agrupamentos. Os critérios são retirados do clusterCrit()pacote. Os pontos que estou tentando agrupar em um gráfico (as...

r clustering

8

Mapas auto-organizados vs. k-means do kernel

Para um aplicativo, quero agrupar dados (potencialmente dimensionais) e extrair a probabilidade de pertencer a um cluster. Eu considero no momento mapas auto-organizados ou kernel significa fazer o trabalho. Quais são os prós e os contras de cada classificador para esta tarefa? Estou com saudades...

clustering unsupervised-learning

8

Por que apenas o valor médio é usado no método de agrupamento (K-means)?

Nos métodos de agrupamento, como médias K , a distância euclidiana é a métrica a ser usada. Como resultado, calculamos apenas os valores médios em cada cluster. E então são feitos ajustes nos elementos com base em sua distância para cada valor médio. Fiquei me perguntando por que a função...

normal-distribution clustering k-means unsupervised-learning gaussian-mixture

8

Por que um modelo estatístico superajustaria se recebesse um grande conjunto de dados?

Meu projeto atual pode exigir que eu construa um modelo para prever o comportamento de um determinado grupo de pessoas. o conjunto de dados de treinamento contém apenas 6 variáveis (id é apenas para fins de identificação): id, age, income, gender, job category, monthly spend em que monthly...

modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

8

Como interpretar a altura do dendograma para agrupamento por correlação

Dado o seguinte quadro de dados: df <- data.frame(x1 = c(26, 28, 19, 27, 23, 31, 22, 1, 2, 1, 1, 1), x2 = c(5, 5, 7, 5, 7, 4, 2, 0, 0, 0, 0, 1), x3 = c(8, 6, 5, 7, 5, 9, 5, 1, 0, 1, 0, 1), x4 = c(8, 5, 3, 8, 1, 3, 4, 0, 0, 1, 0, 0), x5 = c(1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0), x6 = c(2, 3,...

r correlation hierarchical-clustering

8

Cluster de dados com mistura de variáveis contínuas e categóricas

Eu tenho dados que representam algum aspecto do comportamento humano. Quero agrupá-lo (sem supervisão) em perfis comportamentais de algum tipo. agora, algumas das minhas variáveis são categóricas (com 2 ou mais categorias) e outras são contínuas (a maioria são porcentagens). Algumas variáveis...

r clustering categorical-data continuous-data

8

Clusters que podem ser causados por meios K

Eu recebi a seguinte pergunta como uma pergunta de teste para o meu exame e simplesmente não consigo entender a resposta. Um gráfico de dispersão dos dados projetados nos dois primeiros componentes principais é mostrado abaixo. Desejamos examinar se existe alguma estrutura de grupo no conjunto de...

clustering k-means

8

Modelo não paramétrico de mistura e aglomerados

Eu tenho uma pergunta sobre clusters que estou pensando em tratar com uma abordagem de mistura não paramétrica (eu acho). Estou trabalhando na explicação do comportamento humano. Cada linha do meu banco de dados contém: o ID de alguém alguns parâmetros do ambiente X (exemplo: temperatura,...

machine-learning clustering computational-statistics mixture

8

Usando k-means com outras métricas

Então, percebo que isso já foi perguntado antes: por exemplo, quais são os casos de uso relacionados à análise de cluster de diferentes métricas de distância? mas achei as respostas um tanto contraditórias ao sugerido que deveriam ser possíveis na literatura. Recentemente, li dois artigos que...

clustering k-means metric

8

A melhor maneira de agrupar uma matriz de adjacência

Foi difícil interpretar clusters resultantes de uma matriz de adjacência. Eu tenho 200 matrizes relativamente grandes que representam assuntos que contêm correlações parciais (escores z) de séries temporais (dados neurais). O objetivo é agrupar essas 210 matrizes e detectar possíveis comunidades...

clustering neuroimaging

8

Maneira eficiente de calcular distâncias entre centróides a partir da matriz de distância

Vamos ter uma matriz simétrica quadrada de distâncias euclidianas quadradas entre n pontos e o vetor alongado n indicando a associação de grupos ou grupos ( k clusters) dos pontos; um cluster pode consistir em \ ge1 point.nDD\bf Dnnnk ≥ 1nnnkkk≥1≥1\ge1 Qual é a maneira mais eficiente ou realmente...

clustering mean distance euclidean

8

Quando usar LDA sobre GMM para cluster?

Eu tenho um conjunto de dados contendo atividade do usuário com 168 dimensões, onde desejo extrair clusters usando aprendizado não supervisionado. Não é óbvio para mim se devo usar uma abordagem de modelagem de tópicos na alocação de Dirichlet Latente (LDA) ou Modelos de Mistura Gaussiana (GMM),...

clustering gaussian-mixture unsupervised-learning topic-models

8

Algoritmos de agrupamento de gráficos que consideram pesos negativos

Eu tenho uma instância de gráfico com arestas direcionadas ponderadas cujos valores podem estar no intervalo [-1,1]. Eu preciso fazer cluster neste gráfico, a fim de descobrir grupos nos quais os vértices estão mais correlacionados. Procurei vários algoritmos baseados em gráficos de cluster ou de...

correlation clustering graph-theory networks igraph

8

Como executar SVD para atribuir valores ausentes, um exemplo concreto

Eu li os ótimos comentários sobre como lidar com valores ausentes antes de aplicar o SVD, mas gostaria de saber como ele funciona com um exemplo simples: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Dada a matriz acima, se eu remover os valores de NA, acabarei...

r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

8

algoritmo k-means ++ e valores discrepantes

É sabido que o algoritmo k-means sofre na presença de outliers. O k-means ++ é um método eficaz para a initalização do centro de cluster. Eu estava analisando o PPT pelos fundadores do método, Sergei Vassilvitskii e David Arthur http://theory.stanford.edu/~sergei/slides/BATS-Means.pdf (slide 28),...

clustering k-means

8

Era tão válido executar médias k em uma matriz de distância quanto na matriz de dados (dados de mineração de texto)?

(Esta postagem é uma repostagem de uma pergunta que eu postei ontem (agora excluída), mas tentei reduzir o volume de palavras e simplificar o que estou perguntando) Espero obter ajuda na interpretação de um script e saída do kmeans que criei. Isso ocorre no contexto da análise de texto. Criei esse...

r clustering k-means text-mining

8

Cluster de séries temporais multivariadas

Estou coletando um grupo de seqüências de tempo multivariadas. Por exemplo, existem 2000 séries temporais. Cada série temporal é de 12 dimensões. Existem modelos / algoritmos sistemáticos que podem agrupar séries temporais multivariadas? Por exemplo, gostaria de identificar algumas séries...

machine-learning time-series clustering multivariate-analysis sequential-pattern-mining

8

Escolhendo o número de clusters - critérios de validação de clustering vs considerações teóricas de domínio

Costumo enfrentar a questão de ter que escolher um número de clusters. A partição que acabo escolhendo é mais frequentemente baseada em preocupações visuais e teóricas do que em critérios de qualidade. Eu tenho duas perguntas principais. O primeiro diz respeito à idéia geral de qualidade dos...

r machine-learning classification clustering hierarchical-clustering