A idéia principal de k-vizinho mais próximo leva em conta os pontos mais próximos e decide a classificação dos dados por maioria de votos. Nesse caso, não deve haver problemas nos dados dimensionais mais altos, porque métodos como o hash sensível à localidade podem encontrar com eficiência os vizinhos mais próximos.
Além disso, a seleção de recursos com redes bayesianas pode reduzir a dimensão dos dados e facilitar o aprendizado.
No entanto, este artigo de revisão de John Lafferty, no aprendizado estatístico, aponta que o aprendizado não paramétrico em espaços de características de alta dimensão ainda é um desafio e não solucionado.
O que está acontecendo de errado?
Respostas:
Distância média vs. dimensionalidade
fonte
Não é uma resposta completa, mas a página da wikipedia que você citou declara:
A probabilidade de isso ocorrer aumenta na presença de espaços de característica de alta dimensão.
fonte