Alguém usa as métricas ou L .5 para agrupar, em vez de L 2 ?
Aggarwal et al.,
Sobre o surpreendente comportamento das métricas de distância no espaço de alta dimensão,
disseram (em 2001) que
é consistentemente mais preferível do que a métrica de distância euclidiana L 2 para aplicações de mineração de dados de alta dimensão
e afirmou que ou L .1 podem ser melhores ainda.
Razões para usar ou L .5 poderia ser teórico ou experimental, por exemplo, sensibilidade a outliers / papéis de Kaban, ou programas executados em dados reais ou sintéticos (reproduzível por favor). Um exemplo ou uma imagem ajudaria a intuição do meu leigo.
Esta pergunta é um acompanhamento da resposta de Bob Durrant para Quando-é-o-próximo-vizinho-significativo-hoje . Como ele diz, a escolha de será dependente dos dados e do aplicativo; no entanto, relatos de experiências reais seriam úteis.
Notas adicionadas terça-feira, 7 de junho:
Tropecei em "Análise estatística de dados com base na norma L1 e métodos relacionados", Dodge, 2002, 454p, isbn 3764369205 - dezenas de artigos de conferência.
Alguém pode analisar a concentração de distância para recursos exponenciais iid? Uma razão para exponenciais é que ; outro (não especialista) é que é a distribuição de entropia máxima ≥ 0; um terceiro é que alguns conjuntos de dados reais, em particular SIFTs, parecem aproximadamente exponenciais.
Respostas:
A chave aqui é entender a "maldição da dimensionalidade" à qual o artigo se refere. Da wikipedia: quando o número de dimensões é muito grande,
Como resultado, começa a ficar complicado pensar sobre quais pontos estão próximos de outros pontos, porque estão todos mais ou menos igualmente afastados. Esse é o problema no primeiro artigo ao qual você vinculou.
O problema com p alto é que ele enfatiza os valores maiores - cinco ao quadrado e quatro ao quadrado estão separados por nove unidades, mas um ao quadrado e dois ao quadrado têm apenas três unidades. Portanto, as dimensões maiores (coisas nos cantos) dominam tudo e você perde o contraste. Portanto, essa inflação de grandes distâncias é o que você deseja evitar. Com um p fracionário, a ênfase está nas diferenças nas dimensões menores - dimensões que realmente têm valores intermediários - o que oferece mais contraste.
fonte
Existe um documento usando a métrica Lp com p entre 1 e 5 que você pode dar uma olhada:
Amorim, RC e Mirkin, B., Minkowski Metric, Ponderação de Recursos e Inicialização Anômala de Clusters em K-Means Clustering, Reconhecimento de Padrões, vol. 45 (3), pp. 1061-1075, 2012
Faça o download, https://www.researchgate.net/publication/232282003_Author 's_personal_copy_Minkowski_metric_feature_weighting_and_anomalous_cluster_initializing_in_K-Means_clustering / file / d912f508115a040b45.pdf
fonte
fonte