Perguntas com a marcação «clustering»

13

Agrupe Big Data em R e a amostragem é relevante?

Eu sou novo na ciência de dados e tenho um problema ao encontrar clusters em um conjunto de dados com 200.000 linhas e 50 colunas em R. Como os dados têm variáveis numéricas e nominais, métodos como o K-significa que usa a medida de distância euclidiana não parece ser uma escolha apropriada....

r clustering sampling large-data

13

Uma rotina para escolher eps e minPts para DBSCAN

O DBSCAN é o algoritmo de cluster mais citado de acordo com a literatura e pode encontrar clusters de formas arbitrários com base na densidade. Ele tem dois parâmetros eps (como raio da vizinhança) e minPts (como vizinhos mínimos para considerar um ponto como ponto central), que eu acredito que...

clustering dbscan

13

Preciso descartar variáveis correlacionadas / colineares antes de executar kmeans?

Estou executando kmeans para identificar grupos de clientes. Eu tenho aproximadamente 100 variáveis para identificar clusters. Cada uma dessas variáveis representa a% de gasto de um cliente em uma categoria. Portanto, se eu tiver 100 categorias, tenho essas 100 variáveis, de modo que a soma...

clustering data-mining k-means multicollinearity compositional-data

12

Como posso testar se meu cluster de dados binários é significativo

Estou fazendo análises de carrinho de compras, meu conjunto de dados é um conjunto de vetores de transação, com os itens que os produtos estão sendo comprados. Ao aplicar o k-means nas transações, sempre obterei algum resultado. Uma matriz aleatória provavelmente também mostraria alguns...

clustering statistical-significance binary-data

12

Livros ou artigos recomendados como introdução à Análise de Cluster?

Estou trabalhando em um pequeno corpus (200M) de texto, que quero explorar com algumas análises de cluster. Quais livros ou artigos sobre esse assunto você recomendaria?

machine-learning references clustering

12

Agrupando Dados Espaciais em R

Eu tenho um conjunto de dados mensais de temperatura da superfície do mar (SST) e quero aplicar alguma metodologia de cluster para detectar regiões com padrões SST semelhantes. Eu tenho um conjunto de arquivos de dados mensais em execução de 1985 a 2009 e quero aplicar o cluster a cada mês como...

r clustering spatial

12

Como executar a imputação de valores em um número muito grande de pontos de dados?

Eu tenho um conjunto de dados muito grande e faltam cerca de 5% de valores aleatórios. Essas variáveis estão correlacionadas entre si. O exemplo a seguir do conjunto de dados R é apenas um exemplo de brinquedo com dados correlatos simulados. set.seed(123) # matrix of X variable xmat <-...

r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

12

Método de cluster robusto para dados mistos em R

Estou procurando agrupar um pequeno conjunto de dados (64 observações de 4 variáveis de intervalo e uma única variável categórica de três fatores). Agora, sou bastante novo na análise de cluster, mas sei que houve um progresso considerável desde os dias em que o cluster hierárquico ou o k-means...

clustering model-based-clustering mixed-type-data

12

Posso usar o PCA para fazer a seleção de variáveis para análise de cluster?

Eu tenho que reduzir o número de variáveis para realizar uma análise de cluster. Minhas variáveis estão fortemente correlacionadas, então pensei em fazer uma Análise Fatorial PCA (análise de componentes principais). No entanto, se eu usar as pontuações resultantes, meus clusters não estão muito...

clustering pca feature-selection factor-analysis

12

Você pode comparar diferentes métodos de armazenamento em cluster em um conjunto de dados sem uma verdade básica por validação cruzada?

Atualmente, estou tentando analisar um conjunto de dados de documento de texto que não tem nenhuma verdade. Disseram-me que você pode usar a validação cruzada k-fold para comparar diferentes métodos de armazenamento em cluster. No entanto, os exemplos que eu vi no passado usam uma verdade básica....

machine-learning clustering cross-validation unsupervised-learning

12

Como sei que meu algoritmo de agrupamento k-means está sofrendo com a maldição da dimensionalidade?

Eu acredito que o título desta pergunta diz tudo.

clustering k-means high-dimensional

12

Teste Exato de Fisher e Distribuição Hipergeométrica

Queria entender melhor o teste exato de Fisher, então inventei o seguinte exemplo de brinquedo, em que f e m correspondem a homens e mulheres e n e y correspondem a "consumo de refrigerante" como este: > soda_gender f m n 0 5 y 5 0 Obviamente, isso é uma simplificação drástica, mas eu não...

fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

12

Interpretando o resultado do agrupamento k-means em R

Eu estava usando a kmeansinstrução de R para executar o algoritmo k-means no conjunto de dados de íris de Anderson. Eu tenho uma pergunta sobre alguns parâmetros que obtive. Os resultados são: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000...

r machine-learning clustering interpretation k-means

12

O que fazer quando a matriz de covariância da amostra não é invertível?

Estou trabalhando em algumas técnicas de agrupamento, nas quais, para um determinado agrupamento de vetores da dimensão d, assumo uma distribuição normal multivariada e calculo o vetor médio da dimensão d da amostra e a matriz de covariância da amostra. Então, quando tentando decidir se um novo,...

clustering multivariate-analysis covariance covariance-matrix matrix-inverse

12

k-significa || tcp K-Means escalável ++

Bahman Bahmani e cols. introduziu k-means ||, que é uma versão mais rápida do k-means ++. Este algoritmo é retirado da página 4 de seu artigo , Bahmani, B., Moseley, B., Vattani, A., Kumar, R. e Vassilvitskii, S. (2012). K-means escalável ++. Anais da Fundação VLDB , 5 (7),...

clustering k-means

11

Cluster SOM para variáveis nominais / circulares

Basta saber se alguém está familiarizado com o agrupamento de entradas nominais. Eu estive olhando o SOM como uma solução, mas aparentemente ele só funciona com recursos numéricos. Existem extensões para recursos categóricos? Especificamente, eu estava pensando em "Dias da semana" como possíveis...

clustering unsupervised-learning self-organizing-maps

11

Como encontrar agrupamentos (trajetórias) entre dados longitudinais?

Contexto Quero definir o cenário antes de expandir um pouco a questão. Tenho dados longitudinais, medições feitas em indivíduos aproximadamente a cada 3 meses, o resultado primário é numérico (como em contínuo a 1dp) no intervalo de 5 a 14, com o volume (de todos os pontos de dados) entre 7 e...

clustering panel-data

11

Qual algoritmo devo usar para agrupar um enorme conjunto de dados binários em poucas categorias?

Eu tenho uma matriz grande (650K linhas * 62 colunas) de dados binários (somente entradas de 0-1). A matriz é praticamente esparsa: cerca de 8% é preenchida. Gostaria de agrupá-lo em 5 grupos - digamos, nomeado de 1 a 5. Tentei agrupar hierarquicamente e não foi capaz de lidar com o tamanho....

clustering dataset k-means binary-data

11

Compreendendo e implementando um modelo de processo Dirichlet

Estou tentando implementar e aprender um processo de Dirichlet para agrupar meus dados (ou, conforme as pessoas do aprendizado de máquina falam, estimam a densidade). Eu li muito papel no tópico e meio que entendi a idéia. Mas ainda estou confuso; aqui está uma série de perguntas, 1) Qual é a...

machine-learning clustering dirichlet-process

11

Quais são as distâncias entre variáveis que formam uma matriz de covariância?

Eu tenho uma matriz de covariância e quero particionar variáveis em clusters usando cluster hierárquico (por exemplo, para classificar uma matriz de covariância).kn × nn×nn \times nkkk Existe uma função de distância típica entre variáveis (ou seja, entre colunas / linhas da matriz de...

clustering covariance distance-functions distance