Perguntas com a marcação «k-means»

k-means é um método para particionar dados em clusters localizando um número especificado de médias, k, st quando os dados são atribuídos a clusters com a média mais próxima, a soma dos quadrados do cluster w / i é minimizada

78
Agrupamento na saída do t-SNE

Eu tenho um aplicativo em que seria útil agrupar um conjunto de dados barulhento antes de procurar efeitos de subgrupos nos clusters. Olhei pela primeira vez para o PCA, mas são necessários ~ 30 componentes para atingir 90% da variabilidade; portanto, agrupar apenas alguns PCs descartará muita...

61
Qual é a relação entre o cluster de k-means e o PCA?

É uma prática comum aplicar o PCA (análise de componentes principais) antes de um algoritmo de armazenamento em cluster (como k-means). Acredita-se que melhora os resultados do agrupamento na prática (redução de ruído). No entanto, estou interessado em um estudo comparativo e aprofundado da...

54
Como decidir o número correto de clusters?

Encontramos os centros de cluster e atribuímos pontos a k diferentes compartimentos de cluster no cluster k-means, que é um algoritmo muito conhecido e é encontrado quase em todos os pacotes de aprendizado de máquina da rede. Mas a parte que falta e mais importante na minha opinião é a escolha de...

29
Como lidar com dados hierárquicos / aninhados no aprendizado de máquina

Vou explicar meu problema com um exemplo. Suponha que você queira prever a renda de um indivíduo, com alguns atributos: {Idade, Sexo, País, Região, Cidade}. Você tem um conjunto de dados de treinamento como esse train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2,...

24
Determinar diferentes clusters de dados 1d do banco de dados

Eu tenho uma tabela de banco de dados de transferências de dados entre nós diferentes. Este é um enorme banco de dados (com quase 40 milhões de transferências). Um dos atributos é o número de transferências de bytes (nbytes) que variam de 0 bytes a 2 tera bytes. Gostaria de agrupar os nbytes de...