Perguntas com a marcação «clustering»

44

A normalização média e o dimensionamento de recursos são necessários para o cluster k-means?

Quais são as melhores etapas de pré-processamento (recomendadas) antes de executar o

clustering normalization k-means

42

Como fazer a detecção da comunidade em uma rede / gráfico social ponderado?

Gostaria de saber se alguém poderia sugerir quais são os bons pontos de partida quando se trata de realizar a detecção / particionamento / agrupamento / agrupamento de gráficos da comunidade em um gráfico que tenha arestas ponderadas e não direcionadas . O gráfico em questão possui aproximadamente...

clustering data-visualization networks partitioning modularity

40

Clustering dinâmico de distorção do tempo

Qual seria a abordagem para usar o Dynamic Time Warping (DTW) para executar o agrupamento de séries temporais? Eu li sobre o DTW como uma maneira de encontrar semelhança entre duas séries temporais, enquanto elas poderiam ser alteradas no tempo. Posso usar esse método como uma medida de...

time-series clustering

38

Séries temporais 'clustering' em R

Eu tenho um conjunto de dados de séries temporais. Cada série cobre o mesmo período, embora as datas reais de cada série cronológica nem sempre sejam exatamente alinhadas. Ou seja, se as séries temporais fossem lidas em uma matriz 2D, seria algo como isto: date T1 T2 T3 .... TN 1/1/01 100 59 42...

r time-series clustering cointegration

35

Como selecionar um método de clustering? Como validar uma solução de cluster (para garantir a escolha do método)?

Um dos maiores problemas com a análise de cluster é que podemos ter que tirar conclusões diferentes quando baseamos nos diferentes métodos de cluster usados (incluindo diferentes métodos de ligação no cluster hierárquico). Gostaria de saber sua opinião sobre isso - qual método você selecionará e...

clustering validation model-evaluation hierarchical-clustering

34

Por que existe uma diferença entre calcular manualmente um intervalo de confiança de 95% da regressão logística e usar a função confint () em R?

Caro pessoal, notei algo estranho que não sei explicar, não é? Em resumo: a abordagem manual para calcular um intervalo de confiança em um modelo de regressão logística e a função R confint()fornecem resultados diferentes. Eu tenho passado pela regressão logística aplicada de Hosmer & Lemeshow...

r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

34

Como interpretar a média do gráfico Silhouette?

Estou tentando usar o gráfico de silhueta para determinar o número de cluster no meu conjunto de dados. Dado o conjunto de dados Train , usei o seguinte código matlab Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid =

data-visualization clustering matlab

34

Por que o t-SNE não é usado como uma técnica de redução de dimensionalidade para agrupamento ou classificação?

Em uma tarefa recente, fomos instruídos a usar o PCA nos dígitos do MNIST para reduzir as dimensões de 64 (8 x 8 imagens) para 2. Em seguida, tivemos que agrupar os dígitos usando um Modelo de Mistura Gaussiana. O PCA que usa apenas dois componentes principais não produz clusters distintos e, como...

classification clustering pca dimensionality-reduction tsne

34

Cluster hierárquico com dados de tipo misto - que distância / semelhança usar?

No meu conjunto de dados, temos variáveis contínuas e naturalmente discretas. Quero saber se podemos fazer cluster hierárquico usando os dois tipos de variáveis. E se sim, que medida de distância é

clustering similarities distance-functions mixed-type-data

33

Escolhendo o método de ligação correto para armazenamento em cluster hierárquico

Estou executando um cluster hierárquico de dados que reuni e processei no despejo de dados do reddit no Google BigQuery. Meu processo é o seguinte: Receba as últimas 1000 postagens em / r / policy Reúna todos os comentários Processar os dados e calcular uma n x mmatriz de dados (n: usuários /...

clustering distance unsupervised-learning hierarchical-clustering

33

(Por que) o SOM no estilo Kohonen caiu em desuso?

Até onde eu sei, os SOMs no estilo Kohonen tiveram um pico em 2005 e não têm recebido tanto favor recentemente. Não encontrei nenhum documento que diga que os SOMs tenham sido incluídos por outro método ou que tenham sido equivalentes a outra coisa (em dimensões mais altas, de qualquer maneira)....

clustering self-organizing-maps

33

Cluster de um conjunto de dados com variáveis discretas e contínuas

Eu tenho um conjunto de dados X que tem 10 dimensões, 4 das quais são valores discretos. De fato, essas 4 variáveis discretas são ordinais, ou seja, um valor mais alto implica uma semântica maior / melhor. 2 dessas variáveis discretas são categóricas no sentido de que, para cada uma dessas...

clustering k-means discrete-data continuous-data gaussian-mixture

32

Como o PCA ajudaria na análise de agrupamento k-means?

Antecedentes : quero classificar as áreas residenciais de uma cidade em grupos com base em suas características socioeconômicas, incluindo densidade de unidades habitacionais, densidade populacional, área de espaços verdes, preço da habitação, número de escolas / centros de saúde / creches, etc....

clustering pca k-means dimensionality-reduction

32

Quais critérios de parada para clustering hierárquico aglomerativo são usados na prática?

Eu encontrei extensa literatura propondo todos os tipos de critérios (por exemplo, Glenn et al. 1985 (pdf) e Jung et al. 2002 (pdf)). No entanto, a maioria delas não é tão fácil de implementar (pelo menos da minha perspectiva). Estou usando o scipy.cluster.hierarchy para obter uma hierarquia de...

clustering

31

Agrupando uma longa lista de strings (palavras) em grupos de similaridade

Tenho o seguinte problema em mãos: Tenho uma lista muito longa de palavras, possivelmente nomes, sobrenomes etc. É necessário agrupar essa lista de palavras, de modo que palavras semelhantes, por exemplo palavras com distância de edição semelhante (Levenshtein), apareçam no mesmo cluster. Por...

clustering k-means pattern-recognition

30

Análise de Classe Latente vs. Análise de Cluster - diferenças nas inferências?

Quais são as diferenças nas inferências que podem ser feitas a partir de uma análise de classe latente (ACV) versus uma análise de cluster? É correto que uma ACV assuma uma variável latente subjacente que dê origem às classes, enquanto a análise de cluster é uma descrição empírica de atributos...

clustering latent-variable latent-class

29

Como lidar com dados hierárquicos / aninhados no aprendizado de máquina

Vou explicar meu problema com um exemplo. Suponha que você queira prever a renda de um indivíduo, com alguns atributos: {Idade, Sexo, País, Região, Cidade}. Você tem um conjunto de dados de treinamento como esse train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2,...

regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

28

Cálculo da repetibilidade dos efeitos de um modelo mais antigo

Acabei de me deparar com este artigo , que descreve como calcular a repetibilidade (também conhecida como confiabilidade, também conhecida como correlação intraclasse) de uma medição via modelagem de efeitos mistos. O código R seria: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the...

mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

28

Como fazer redução de dimensionalidade em R

Eu tenho uma matriz em que a (i, j) me diz quantas vezes eu visualizei a página j. Existem 27 mil indivíduos e 95 mil páginas. Eu gostaria de ter um punhado de "dimensões" ou "aspectos" no espaço das páginas que corresponderiam a conjuntos de páginas que geralmente são vistos juntos. Meu objetivo...

r clustering dimensionality-reduction

28

Comparando dendrogramas hierárquicos de agrupamento obtidos por diferentes distâncias e métodos

[O título inicial "Medição de similaridade para árvores de cluster hierárquicas" foi posteriormente alterado por @ttnphns para refletir melhor o tópico] Estou realizando várias análises hierárquicas de cluster em um quadro de dados de registros de pacientes (por exemplo, semelhante a...

r clustering distance-functions similarities dendrogram