O DBSCAN é o algoritmo de cluster mais citado de acordo com a literatura e pode encontrar clusters de formas arbitrários com base na densidade. Ele tem dois parâmetros eps (como raio da vizinhança) e minPts (como vizinhos mínimos para considerar um ponto como ponto central), que eu acredito que depende muito deles.
Existe algum método de rotina ou comumente usado para escolher esses parâmetros?
clustering
dbscan
Mehraban
fonte
fonte
Respostas:
Existem muitas publicações que propõem métodos para escolher esses parâmetros.
O mais notável é o OPTICS, uma variação do DBSCAN que acaba com o parâmetro epsilon; produz um resultado hierárquico que pode ser visto aproximadamente como "executando o DBSCAN com todos os epsilon possíveis".
Para minPts, sugiro não confiar em um método automático, mas no conhecimento do seu domínio .
Um bom algoritmo de armazenamento em cluster possui parâmetros que permitem personalizá-lo de acordo com suas necessidades.
Um parâmetro que você ignorou é a função de distância. A primeira coisa a fazer para o DBSCAN é encontrar uma boa função de distância para a sua aplicação . Não confie na distância euclidiana sendo a melhor para todas as aplicações!
fonte
k
para a classificação de vizinho mais próximo, pode dizer o mesmo para o parâmetro minPts. Eu acho que a principal diferença é que, para a distância, há um padrão "muitas vezes" sensível: distância euclidiana; enquanto que para minPts, o valor será específico dos dados.