Perguntas com a marcação «clustering»

14
Métricas

Alguém usa as métricas ou L .5 para agrupar, em vez de L 2 ? Aggarwal et al., Sobre o surpreendente comportamento das métricas de distância no espaço de alta dimensão, disseram (em 2001) queL1L1L_1L.5L.5L_.5L2L2L_2 é consistentemente mais preferível do que a métrica de distância euclidiana L...

14
k-significa vs k-mediana?

Eu sei que existe algoritmo de agrupamento k-means e mediana k. Um que usa a média como o centro do cluster e o outro usa a mediana. Minha pergunta é: quando / onde usar

14
Como medir a forma do cluster?

Sei que essa pergunta não está bem definida, mas alguns aglomerados tendem a ser elípticos ou ficam no espaço dimensional mais baixo, enquanto outros têm formas não lineares (em exemplos 2D ou 3D). Existe alguma medida de não linearidade (ou "forma") de clusters? Observe que no espaço 2D e 3D,...

13
Compreendendo comparações de resultados de cluster

Estou experimentando a classificação de dados em grupos. Sou bastante novo neste tópico e estou tentando entender o resultado de algumas das análises. Usando exemplos do Quick-R , vários Rpacotes são sugeridos. Eu tentei usar dois desses pacotes ( fpcusando a kmeansfunção e mclust). Um aspecto...

13
Uma rotina para escolher eps e minPts para DBSCAN

O DBSCAN é o algoritmo de cluster mais citado de acordo com a literatura e pode encontrar clusters de formas arbitrários com base na densidade. Ele tem dois parâmetros eps (como raio da vizinhança) e minPts (como vizinhos mínimos para considerar um ponto como ponto central), que eu acredito que...

13
Estado da arte em desduplicação

Quais são os métodos de ponta na desduplicação de registro? Às vezes, a desduplicação também é chamada: ligação de registro, resolução de entidade, resolução de identidade, mesclagem / eliminação. Eu sei, por exemplo, sobre CBLOCK [1]. Eu apreciaria se as respostas também incluíssem referências ao...

13
Agrupe Big Data em R e a amostragem é relevante?

Eu sou novo na ciência de dados e tenho um problema ao encontrar clusters em um conjunto de dados com 200.000 linhas e 50 colunas em R. Como os dados têm variáveis ​​numéricas e nominais, métodos como o K-significa que usa a medida de distância euclidiana não parece ser uma escolha apropriada....