Li que "a distância euclidiana não é uma boa distância em grandes dimensões". Acho que essa afirmação tem algo a ver com a maldição da dimensionalidade, mas o que exatamente? Além disso, o que são 'altas dimensões'? Tenho aplicado clustering hierárquico usando distância euclidiana com 100 recursos. Até quantos recursos é 'seguro' usar essa métrica?
240
Respostas:
Um ótimo resumo de resultados não intuitivos em dimensões mais altas vem de " Algumas coisas úteis para saber sobre aprendizado de máquina ", de Pedro Domingos, da Universidade de Washington:
O artigo também está cheio de muitas pérolas de sabedoria adicionais para aprendizado de máquina.
Outra aplicação, além do aprendizado de máquina, é a busca por vizinhos mais próximos: dada uma observação de interesse, encontre seus vizinhos mais próximos (no sentido de que esses são os pontos com a menor distância do ponto de consulta). Mas em altas dimensões, surge um fenômeno curioso: a relação entre os pontos mais próximos e os mais distantes se aproxima de 1, ou seja, os pontos se tornam essencialmente uniformemente distantes um do outro. Esse fenômeno pode ser observado para uma grande variedade de métricas de distância, mas é mais pronunciado para a métrica euclidiana do que, por exemplo, a métrica de distância de Manhattan. A premissa da busca por vizinhos mais próximos é que os pontos "mais próximos" são mais relevantes do que os pontos "mais distantes", mas se todos os pontos estiverem essencialmente uniformemente distantes um do outro, a distinção não terá sentido.
De Charu C. Aggarwal, Alexander Hinneburg, Daniel A. Keim, " Sobre o comportamento surpreendente das métricas de distância no espaço de alta dimensão ":
Os autores do artigo "Surprising Behavior" propõem o uso de normas com . Eles produzem alguns resultados que demonstram que essas "normas fracionárias" exibem a propriedade de aumentar o contraste entre os pontos mais distantes e os mais próximos. Isso pode ser útil em alguns contextos, mas há uma ressalva: essas "normas fracionárias" não são métricas de distância adequadas porque violam a desigualdade do triângulo. Se a desigualdade do triângulo é uma qualidade importante em sua pesquisa, as métricas fracionárias não serão tremendamente úteis. k < 1Lk k<1
fonte
A noção de distância euclidiana, que funciona bem nos mundos bidimensionais e tridimensionais estudados por Euclides, tem algumas propriedades em dimensões superiores que são contrárias à nossa (talvez apenas minha ) intuição geométrica, que também é uma extrapolação de duas e três dimensões.
Considere um quadrado com vértices em . Desenhe quatro círculos de raio unitário centralizados em . Estes "preenchem" o quadrado, com cada círculo tocando os lados do quadrado em dois pontos, e cada círculo tocando seus dois vizinhos. Por exemplo, o círculo centralizado em toca os lados do quadrado em e e os círculos vizinhos em e . Em seguida, desenhe um pequeno círculo centrado na origem( ± 2 , ± 2 ) ( ± 1 , ± 1 ) ( 1 , 1 ) ( 2 , 1 ) ( 1 , 2 ) ( 1 , 0 ) ( 0 , 1 )4×4 (±2,±2) (±1,±1) (1,1) (2,1) (1,2) (1,0) (0,1) r2=2–√−1 (±r2/2–√,±r2/2–√) (r2,0) (2,0,0) (1,0,0) (1,1) (1,−1)
fonte
É uma questão de sinal-ruído . A distância euclidiana, devido aos termos ao quadrado, é particularmente sensível ao ruído; mas mesmo a distância de Manhattan e as distâncias "fracionárias" (não métricas) sofrem.
Eu achei os estudos neste artigo muito esclarecedores:
Ele revisita as observações feitas, por exemplo, sobre o comportamento surpreendente das métricas de distância no espaço de alta dimensão de Aggarwal, Hinneburg e Keim mencionados por @Pat. Mas também mostra como os experimentos sintéticos são enganosos e que, de fato , dados de alta dimensão podem se tornar mais fáceis . Se você possui muito sinal (redundante) e as novas dimensões adicionam pouco ruído.
Portanto, no final, ainda depende dos seus dados. Se você tem muitos atributos inúteis, a distância euclidiana se tornará inútil. Se você pode incorporar facilmente seus dados em um espaço de dados de baixa dimensão, a distância euclidiana também deve funcionar em todo o espaço dimensional. Em particular para dados esparsos , como vetores TF do texto, parece que os dados têm uma dimensionalidade muito menor do que o modelo de espaço vetorial sugere.
Algumas pessoas acreditam que a distância do cosseno é melhor que a euclidiana em dados de alta dimensão. Eu não penso assim: distância cosseno e distância euclidiana estão intimamente relacionadas; então devemos esperar que eles sofram dos mesmos problemas. No entanto, dados textuais em que o cosseno é popular geralmente são escassos , e o cosseno é mais rápido em dados esparsos - portanto, para dados esparsos, existem boas razões para usar o cosseno; e como os dados são escassos, a dimensionalidade intrínseca é muito menor que a dimensão do espaço vetorial.
Veja também esta resposta que dei a uma pergunta anterior: https://stats.stackexchange.com/a/29647/7828
fonte
O melhor lugar para começar é provavelmente ler Sobre o comportamento surpreendente das métricas de distância no espaço de alta dimensão de Aggarwal, Hinneburg e Keim. Existe um link atualmente em funcionamento aqui (pdf) , mas deve ser muito acessível para o Google, caso isso ocorra. Em resumo, à medida que o número de dimensões aumenta, a distância euclidiana relativa entre um ponto em um conjunto e seu vizinho mais próximo, e entre esse ponto e seu vizinho mais distante, muda de maneiras não óbvias. Se isso afetará ou não seus resultados depende muito do que você está tentando alcançar e da aparência de seus dados.
fonte
A distância euclidiana raramente é uma boa distância para se escolher no Machine Learning e isso se torna mais óbvio em dimensões mais altas. Isso ocorre porque na maioria das vezes no Machine Learning você não está lidando com um Espaço Métrico Euclidiano, mas com um Espaço Métrico Probabilístico e, portanto, você deve usar funções de distância teórica probabilística e de informação, por exemplo, baseadas em entropia.
Os seres humanos gostam do espaço euclidiano porque é fácil de conceituar, além disso, é matematicamente fácil por causa das propriedades de linearidade que significam que podemos aplicar álgebra linear. Se definirmos distâncias em termos de, digamos, divergência de Kullback-Leibler, será mais difícil visualizar e trabalhar matematicamente.
fonte
Como analogia, imagine um círculo centrado na origem. Os pontos são distribuídos uniformemente. Suponha que um ponto selecionado aleatoriamente esteja em (x1, x2). A distância euclidiana da origem é ((x1) ^ 2 + (x2) ^ 2) ^ 0,5
Agora, imagine pontos distribuídos uniformemente sobre uma esfera. Esse mesmo ponto (x1, x2) agora será provavelmente (x1, x2, x3). Como em uma distribuição par, apenas alguns pontos têm uma das coordenadas como zero, assumiremos que [x3! = 0] para o nosso ponto distribuído uniformemente selecionado aleatoriamente. Assim, nosso ponto aleatório é mais provável (x1, x2, x3) e não (x1, x2, 0).
O efeito disso é: qualquer ponto aleatório está agora a uma distância de ((x1) ^ 2 + (x2) ^ 2 + (x3) ^ 2) ^ 0,5 a partir da origem da esfera 3D. Essa distância é maior que a de um ponto aleatório próximo à origem de um círculo 2D. Esse problema piora em dimensões mais altas, e é por isso que escolhemos métricas diferentes das dimensões euclidianas para trabalhar com dimensões mais altas.
EDIT: Há um ditado que me lembro agora: "A maior parte da massa de uma laranja de maior dimensão está na pele, não na polpa", o que significa que em dimensões mais altas os pontos distribuídos uniformemente são mais "próximos" (distância euclidiana) do limite que a origem.
Nota lateral: A distância euclidiana não é MUITO ruim para problemas do mundo real devido à 'bênção da não uniformidade', que basicamente afirma que, para dados reais, seus dados provavelmente NÃO serão distribuídos uniformemente no espaço dimensional mais alto, mas ocupará um pequeno subconjunto coberto de espaço. Isso faz sentido intuitivamente: se você está medindo 100 quantidades sobre seres humanos, como altura, peso, etc., uma distribuição uniforme no espaço da dimensão simplesmente não faz sentido, por exemplo, uma pessoa com (altura = 65 polegadas, peso = 150 libras, avg_calorie_intake = 4000), o que simplesmente não é possível no mundo real.
fonte
Outra faceta dessa pergunta é a seguinte:
Muitas vezes, as altas dimensões em problemas (aprendizado de máquina / estatística) são resultado de recursos excessivamente restritos.
Isso significa que as dimensões NÃO são independentes (ou não correlacionadas), mas as métricas euclidianas assumem (pelo menos) não correlação e, portanto, podem não produzir melhores resultados
Portanto, para responder à sua pergunta, o número de "altas dimensões" está relacionado a quantos recursos são interdependentes ou redundantes ou com excesso de restrições
Além disso: é um teorema de Csiszar (et al.) Que as métricas euclidianas são candidatas "naturais" à inferência quando os recursos são de certas formas
fonte
Este artigo pode ajudá-lo também "Medição de similaridade de sqrt-cosseno aprimorada", visite https://journalofbigdata.springeropen.com/articles/10.1186/s40537-017-0083-6 Este artigo explica por que a distância euclidiana não é uma boa métrica em alta dimensão dados e qual é o melhor substituto para a distância euclidiana em dados de alta dimensão. A distância euclidiana é a norma L2 e, ao diminuir o valor de k na norma Lk, podemos aliviar o problema da distância em dados de alta dimensão. Você também pode encontrar as referências neste artigo.
fonte