Perguntas com a marcação «clustering»

365

Como entender as desvantagens do K-means

K-means é um método amplamente utilizado na análise de agrupamentos. No meu entendimento, esse método NÃO requer QUALQUER suposição, ou seja, me forneça um conjunto de dados e um número pré-especificado de clusters, k, e apenas aplico esse algoritmo que minimiza a soma dos erros ao quadrado (SSE),...

240

Por que a distância euclidiana não é uma boa métrica em grandes dimensões?

Li que "a distância euclidiana não é uma boa distância em grandes dimensões". Acho que essa afirmação tem algo a ver com a maldição da dimensionalidade, mas o que exatamente? Além disso, o que são 'altas dimensões'? Tenho aplicado clustering hierárquico usando distância euclidiana com 100 recursos....

machine-learning clustering distance-functions metric high-dimensional

110

Detectando um rosto em um banco de dados de imagens faciais

Estou trabalhando em um pequeno projeto que envolve os rostos dos usuários do twitter através de suas fotos de perfil. Um problema que encontrei é que, depois de filtrar todas as imagens, exceto as fotos nítidas, uma porcentagem pequena, mas significativa, dos usuários do twitter usa uma foto de...

machine-learning clustering image-processing

78

Como saber se os dados estão “agrupados” o suficiente para que os algoritmos de agrupamento produzam resultados significativos?

Como você saberia se seus dados (de alta dimensão) exibem agrupamentos suficientes para que os resultados de kmeans ou outro algoritmo de agrupamento sejam realmente significativos? Para o algoritmo k-means, em particular, quanto de redução na variação dentro do cluster deve haver para que os...

clustering k-means

78

Um exemplo: regressão do LASSO usando glmnet para resultado binário

Estou começando a se envolver com o uso de glmnetcom LASSO Regressão onde meu desfecho de interesse é dicotômica. Criei um pequeno quadro de dados simulado abaixo: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67,...

r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

78

Agrupamento na saída do t-SNE

Eu tenho um aplicativo em que seria útil agrupar um conjunto de dados barulhento antes de procurar efeitos de subgrupos nos clusters. Olhei pela primeira vez para o PCA, mas são necessários ~ 30 componentes para atingir 90% da variabilidade; portanto, agrupar apenas alguns PCs descartará muita...

clustering interpretation k-means tsne

73

Escolhendo um método de armazenamento em cluster

Ao usar a análise de cluster em um conjunto de dados para agrupar casos semelhantes, é preciso escolher entre um grande número de métodos de cluster e medidas de distância. Às vezes, uma escolha pode influenciar a outra, mas existem muitas combinações possíveis de métodos. Alguém tem alguma...

clustering distance-functions methodology

72

A distância euclidiana geralmente não é boa para dados esparsos?

Vi em algum lugar que distâncias clássicas (como a distância euclidiana) se tornam fracamente discriminantes quando temos dados multidimensionais e esparsos. Por quê? Você tem um exemplo de dois vetores de dados esparsos em que a distância euclidiana não apresenta bom desempenho? Nesse caso, que...

machine-learning clustering data-mining sparse euclidean

62

Por que o algoritmo de agrupamento k-means usa apenas a métrica de distância euclidiana?

Existe um propósito específico em termos de eficiência ou funcionalidade porque o algoritmo k-means não usa, por exemplo, (des) semelhança de cosseno como uma métrica de distância, mas apenas pode usar a norma euclidiana? Em geral, o método K-means está em conformidade e correto quando outras...

clustering k-means distance-functions euclidean

61

Qual é a relação entre o cluster de k-means e o PCA?

É uma prática comum aplicar o PCA (análise de componentes principais) antes de um algoritmo de armazenamento em cluster (como k-means). Acredita-se que melhora os resultados do agrupamento na prática (redução de ruído). No entanto, estou interessado em um estudo comparativo e aprofundado da...

clustering pca k-means

61

Onde cortar um dendrograma?

O cluster hierárquico pode ser representado por um dendograma. Cortar um dendrograma em um determinado nível fornece um conjunto de clusters. Cortar em outro nível fornece outro conjunto de clusters. Como você escolheria onde cortar o dendrograma? Existe algo que poderíamos considerar um ponto...

clustering dendrogram

54

Como decidir o número correto de clusters?

Encontramos os centros de cluster e atribuímos pontos a k diferentes compartimentos de cluster no cluster k-means, que é um algoritmo muito conhecido e é encontrado quase em todos os pacotes de aprendizado de máquina da rede. Mas a parte que falta e mais importante na minha opinião é a escolha de...

clustering k-means

52

Como uma rede neural artificial pode ser usada para agrupamentos não supervisionados?

Eu entendo como um artificial neural network (ANN), pode ser treinado de maneira supervisionada usando a retropropagação para melhorar o ajuste, diminuindo o erro nas previsões. Ouvi dizer que uma RNA pode ser usada para aprendizado não supervisionado, mas como isso pode ser feito sem uma função de...

clustering neural-networks unsupervised-learning self-organizing-maps

52

Clustering com uma matriz de distância

Eu tenho uma matriz (simétrica) Mque representa a distância entre cada par de nós. Por exemplo, ABCDEFGHIJKL A 0 20 20 20 40 60 60 60 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 C 20 20 0 20 60 80 80 80 120 140 140 140 D 20 20 20 0 60 80 80 80 120 140 140 140 E 40 60 60 60 0 20 20 20...

clustering

52

Qual é a diferença entre Multiclass e Multilabel Problem

Qual é a diferença entre um problema de várias classes e um problema de várias

classification clustering terminology multi-class multilabel

50

Clustering com K-Means e EM: como eles estão relacionados?

Estudei algoritmos para agrupar dados (aprendizado não supervisionado): EM e k-means. Eu continuo lendo o seguinte: O k-means é uma variante do EM, com as suposições de que os clusters são esféricos. Alguém pode explicar a frase acima? Eu não entendo o que significa esférico e como kmeans e EM...

machine-learning clustering data-mining k-means expectation-maximization

49

Métricas de desempenho para avaliar o aprendizado não supervisionado

Com relação ao aprendizado não supervisionado (como cluster), existem métricas para avaliar o

machine-learning clustering data-mining unsupervised-learning

47

É possível fazer cluster de séries temporais com base no formato da curva?

Eu tenho dados de vendas para uma série de pontos de venda e quero categorizá-los com base no formato de suas curvas ao longo do tempo. Os dados são mais ou menos assim (mas obviamente não são aleatórios e têm alguns dados ausentes): n.quarters <- 100 n.stores <- 20 if...

r time-series clustering

46

Interpretação do preditor e / ou resposta transformada em log

Gostaria de saber se faz diferença na interpretação se apenas as variáveis dependentes, dependentes e independentes ou apenas as independentes são transformadas em log. Considere o caso de log(DV) = Intercept + B1*IV + Error Eu posso interpretar o IV como o aumento percentual, mas como isso...

regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

44

É importante dimensionar os dados antes do armazenamento em cluster?

Encontrei este tutorial , que sugere que você execute a função de escala nos recursos antes de agrupar (acredito que converte dados em z-scores). Eu estou querendo saber se isso é necessário. Estou perguntando principalmente porque há um bom ponto de cotovelo quando não dimensiono os dados, mas...

clustering k-means