Métricas

14

Alguém usa as métricas ou L .5 para agrupar, em vez de L 2 ? Aggarwal et al., Sobre o surpreendente comportamento das métricas de distância no espaço de alta dimensão, disseram (em 2001) queL1L.5L2

é consistentemente mais preferível do que a métrica de distância euclidiana L 2 para aplicações de mineração de dados de alta dimensãoL1L2

e afirmou que ou L .1 podem ser melhores ainda.L.5L.1

Razões para usar ou L .5 poderia ser teórico ou experimental, por exemplo, sensibilidade a outliers / papéis de Kaban, ou programas executados em dados reais ou sintéticos (reproduzível por favor). Um exemplo ou uma imagem ajudaria a intuição do meu leigo.L1L.5

Esta pergunta é um acompanhamento da resposta de Bob Durrant para Quando-é-o-próximo-vizinho-significativo-hoje . Como ele diz, a escolha de será dependente dos dados e do aplicativo; no entanto, relatos de experiências reais seriam úteis.p


Notas adicionadas terça-feira, 7 de junho:

Tropecei em "Análise estatística de dados com base na norma L1 e métodos relacionados", Dodge, 2002, 454p, isbn 3764369205 - dezenas de artigos de conferência.

Alguém pode analisar a concentração de distância para recursos exponenciais iid? Uma razão para exponenciais é que ; outro (não especialista) é que é a distribuição de entropia máxima 0; um terceiro é que alguns conjuntos de dados reais, em particular SIFTs, parecem aproximadamente exponenciais.|expexp|exp

denis
fonte
É importante mencionar que Aggarwal et al. nesse artigo específico procura o comportamento dos normas em problemas como clustering, vizinho mais próximo e indexação. Lp
deps_stats
você provavelmente significava métricas para as seqüências em vez de L p para funções? Na minha opinião, se houver algum critério de otimização, o problema poderá ser resolvido otimizando-o. A regra de ouro geralmente estará relacionada à solução exata de tal. De qualquer forma, tente pensar nas propriedades da solução knn são preferidas. Depois de ler os artigos, provavelmente poderia falar um pouco mais sobre o assunto. lpLp
Dmitrij Celov
@deps_stats, sim, obrigado; mudou o título e a primeira linha. @ Dmitrij, 1) sim little-l está estritamente correto, mas big-L é comum e compreensível. 2) sim, é possível encontrar um p ideal para um determinado problema, mas qual é a sua primeira escolha e por quê?
Denis5

Respostas:

6

A chave aqui é entender a "maldição da dimensionalidade" à qual o artigo se refere. Da wikipedia: quando o número de dimensões é muito grande,

quase todo o espaço de alta dimensão está "longe" do centro, ou, em outras palavras, pode-se dizer que o espaço da unidade de alta dimensão consiste quase inteiramente nos "cantos" do hipercubo, quase sem "meio"

Como resultado, começa a ficar complicado pensar sobre quais pontos estão próximos de outros pontos, porque estão todos mais ou menos igualmente afastados. Esse é o problema no primeiro artigo ao qual você vinculou.

O problema com p alto é que ele enfatiza os valores maiores - cinco ao quadrado e quatro ao quadrado estão separados por nove unidades, mas um ao quadrado e dois ao quadrado têm apenas três unidades. Portanto, as dimensões maiores (coisas nos cantos) dominam tudo e você perde o contraste. Portanto, essa inflação de grandes distâncias é o que você deseja evitar. Com um p fracionário, a ênfase está nas diferenças nas dimensões menores - dimensões que realmente têm valores intermediários - o que oferece mais contraste.

David J. Harris
fonte
(+1) Então, David, em geral, existe um critério que descreva a qualidade do contraste?
Dmitrij Celov
Parece que o primeiro artigo vinculado sugere distância máxima menos distância mínima. Poderia haver maneiras melhores, no entanto.
David J. Harris
boa intuição clara, +1 (embora não esteja claro onde estão os cantos nas distribuições à distância). Você usou ou L .5 em dados reais? L1L.5
Denis
1
@ Denis Thanks! Acho que o bit de cantos faz mais sentido se os dados forem limitados quase ou em todas as dimensões. De qualquer forma, acho que não tenho experiência suficiente com clustering para ter boas intuições sobre métricas diferentes para você. Irritante como é, a melhor abordagem poderia ser a de experimentar um pouco e ver o que acontece
David J. Harris
1

Existe um documento usando a métrica Lp com p entre 1 e 5 que você pode dar uma olhada:

Amorim, RC e Mirkin, B., Minkowski Metric, Ponderação de Recursos e Inicialização Anômala de Clusters em K-Means Clustering, Reconhecimento de Padrões, vol. 45 (3), pp. 1061-1075, 2012

Faça o download, https://www.researchgate.net/publication/232282003_Author 's_personal_copy_Minkowski_metric_feature_weighting_and_anomalous_cluster_initializing_in_K-Means_clustering / file / d912f508115a040b45.pdf

Homer Simpson
fonte
0

Rnu2uu2

Ashok
fonte
L2L1L.5