Perguntas com a marcação «clustering»

13
Agrupe Big Data em R e a amostragem é relevante?

Eu sou novo na ciência de dados e tenho um problema ao encontrar clusters em um conjunto de dados com 200.000 linhas e 50 colunas em R. Como os dados têm variáveis ​​numéricas e nominais, métodos como o K-significa que usa a medida de distância euclidiana não parece ser uma escolha apropriada....

13
Uma rotina para escolher eps e minPts para DBSCAN

O DBSCAN é o algoritmo de cluster mais citado de acordo com a literatura e pode encontrar clusters de formas arbitrários com base na densidade. Ele tem dois parâmetros eps (como raio da vizinhança) e minPts (como vizinhos mínimos para considerar um ponto como ponto central), que eu acredito que...

12
Agrupando Dados Espaciais em R

Eu tenho um conjunto de dados mensais de temperatura da superfície do mar (SST) e quero aplicar alguma metodologia de cluster para detectar regiões com padrões SST semelhantes. Eu tenho um conjunto de arquivos de dados mensais em execução de 1985 a 2009 e quero aplicar o cluster a cada mês como...

12
Como executar a imputação de valores em um número muito grande de pontos de dados?

Eu tenho um conjunto de dados muito grande e faltam cerca de 5% de valores aleatórios. Essas variáveis ​​estão correlacionadas entre si. O exemplo a seguir do conjunto de dados R é apenas um exemplo de brinquedo com dados correlatos simulados. set.seed(123) # matrix of X variable xmat <-...

12
Você pode comparar diferentes métodos de armazenamento em cluster em um conjunto de dados sem uma verdade básica por validação cruzada?

Atualmente, estou tentando analisar um conjunto de dados de documento de texto que não tem nenhuma verdade. Disseram-me que você pode usar a validação cruzada k-fold para comparar diferentes métodos de armazenamento em cluster. No entanto, os exemplos que eu vi no passado usam uma verdade básica....

12
Teste Exato de Fisher e Distribuição Hipergeométrica

Queria entender melhor o teste exato de Fisher, então inventei o seguinte exemplo de brinquedo, em que f e m correspondem a homens e mulheres e n e y correspondem a "consumo de refrigerante" como este: > soda_gender f m n 0 5 y 5 0 Obviamente, isso é uma simplificação drástica, mas eu não...

12
k-significa || tcp K-Means escalável ++

Bahman Bahmani e cols. introduziu k-means ||, que é uma versão mais rápida do k-means ++. Este algoritmo é retirado da página 4 de seu artigo , Bahmani, B., Moseley, B., Vattani, A., Kumar, R. e Vassilvitskii, S. (2012). K-means escalável ++. Anais da Fundação VLDB , 5 (7),...