Isso é citado com muita frequência ao mencionar a maldição da dimensionalidade e vai
(fórmula à direita chamada contraste relativo)
O resultado do teorema mostra que a diferença entre as distâncias máxima e mínima para um determinado ponto de consulta não aumenta tão rápido quanto a distância mais próxima de qualquer ponto no espaço dimensional alto. Isso torna uma consulta de proximidade sem sentido e instável, porque existe uma discriminação precária entre o vizinho mais próximo e o mais distante.
No entanto, se alguém realmente tentar calcular o contraste relativo dos valores da amostra, o que significa que se pega um vetor contendo valores muito pequenos e calcula a distância do vetor zero e faz o mesmo para um vetor que contém valores muito maiores e, em seguida, compara os valores para uma dimensão 3 e uma dimensão vezes maior, veremos que, embora a razão diminua, a mudança é tão pequena que é irrelevante para o número de dimensões realmente usadas na prática (ou alguém conhece alguém que trabalha com dados com dimensões do tamanho do número de Graham - que eu acho que é o tamanho necessário para que o efeito descrito seja realmente relevante - acho que não).
Como mencionado anteriormente, esse teorema é frequentemente citado para apoiar a afirmação de que medir a proximidade com base no espaço euclidiano é uma estratégia ruim em um espaço de alta dimensão, dizem os próprios autores, e ainda assim o comportamento proposto não ocorre de fato, fazendo-me acho que esse teorema foi usado de maneira enganosa.
Exemplo: com d
a dimensão
a=np.ones((d,)) / 1e5
b=np.ones((d,)) * 1e5
dmin,dmax=norm(a), norm(b)
(dmax-dmin)/dmin
para d = 3
9999999999.0
para d = 1e8
9999999998.9996738
E com 1e1 em vez de 1e5 (digamos que os dados sejam normalizados)
para d = 3
99.0
para d = 1e8
98.999999999989527
Respostas:
Não, o teorema não é enganoso. Certamente pode ser aplicado incorretamente, mas isso é verdade para qualquer teorema.
Aqui está um script simples do MATLAB para demonstrar como funciona:
A saída:
No meu código, res1 e res2 são as duas expressões em sua equação do artigo: uma para variância e a segunda para o contraste.
Você pode ver como os dois chegam a zero como deveria quando as dimensões variam de 1 a 10.000.
fonte
X
vem a variação chega a zero?