Qual é a maldição da dimensionalidade?

21

Especificamente, estou procurando referências (papéis, livros) que mostrem e expliquem rigorosamente a maldição da dimensionalidade. Essa questão surgiu depois que comecei a ler este white paper de Lafferty e Wasserman. No terceiro parágrafo, eles mencionam uma equação "bem conhecida" que implica que a melhor taxa de convergência é ; se alguém puder explicar isso (e explicar), isso seria muito útil.n4/(4d)

Além disso, alguém pode me apontar para uma referência que deriva a equação "bem conhecida"?

Khoda
fonte
7
Não posso explicar, mas acredito que já ouvi três versões diferentes da maldição: 1) dimensões mais altas significam uma quantidade exponencialmente crescente de trabalho e 2) em dimensões mais altas, você obterá cada vez menos exemplos em qualquer parte do seu espaço de amostra e 3) em altas dimensões, tudo tende a ser basicamente equidistante, dificultando a distinção.
Wayne
5
Você pode interpretar isso geometricamente. Digamos que você tenha uma esfera nas dimensões D com raio r = 1. Você pode então fazer a pergunta sobre qual fração do volume da esfera que fica entre o raio r = 1 er = 1-e. Como sabemos que o volume de uma esfera escala como k (d) * r ^ (d), onde d é o número de dimensões, podemos derivar que a fração é dada por 1- (1-e) ^ d. Assim, para esferas de alta dimensão, a maior parte do volume está concentrada em uma concha fina perto da superfície. Veja mais sobre isso no livro dos Bispos "Reconhecimento de padrões e aprendizado de máquina".
Dr. Mike
@Wayne Sure; mais 5) mais dims geralmente significam mais ruído.
Dr. Mike, eu não sigo a lógica. Parece que você está dizendo que "como a maior parte do volume está concentrada em uma concha fina perto da superfície da esfera de alta dimensão, você é amaldiçoado com a dimensionalidade". Você pode explicar mais, e talvez me mostrar explicitamente como a analogia se relaciona com as estatísticas?
khoda

Respostas:

9

Seguindo richiemorrisroe, aqui está a imagem relevante dos Elementos da Aprendizagem Estatística , capítulo 2 (pp22-27):

ESL página 25

Como você pode ver no painel superior direito, há mais vizinhos a 1 unidade de distância em 1 dimensão do que vizinhos 1 unidade de distância em 2 dimensões. 3 dimensões seria ainda pior!

Zach
fonte
7

Isso não responde diretamente à sua pergunta, mas David Donoho tem um bom artigo sobre Análise de Dados em Alta Dimensão: As Maldições e Bênçãos da Dimensionalidade (slides associados estão aqui ), no qual ele menciona três maldições:

  • D(1/ϵ)Dϵ
  • d(1/ϵ)Dϵ
  • D(1/ϵ)Dϵ
raegtin
fonte
6

Sei que continuo me referindo a ele, mas há uma grande explicação para isso: Elementos da Aprendizagem Estatística , capítulo 2 (págs. 22-27). Eles basicamente observam que, à medida que as dimensões aumentam, a quantidade de dados precisa aumentar (exponencialmente) com eles ou não haverá pontos suficientes no espaço amostral maior para que qualquer análise útil seja realizada.

Eles se referem a um artigo de Bellman (1961) como sua fonte, que parece ser seu livro Adaptive Control Processes, disponível na Amazon aqui.

richiemorrisroe
fonte
+1. A explicação em ESL é ótima e os diagramas associados ajudam muito.
Zach
2

insira a descrição da imagem aqui

Talvez o impacto mais notório seja capturado pelo seguinte limite (que é (indiretamente) ilustrado na figura acima):

limdimdistmaxdistmindistmin

A distância na figura é a distância euclidiana baseada em . O limite expressa que a noção de distância captura cada vez menos informações sobre similaridade com aumento de dimensionalidade. Isso afeta algoritmos como o k-NN. Permitindo frações para em -norms, o efeito descrito pode ser alterado .k L kL2kLk


Impacto da dimensionalidade nos dados nas imagens

Raffael
fonte