Especificamente, estou procurando referências (papéis, livros) que mostrem e expliquem rigorosamente a maldição da dimensionalidade. Essa questão surgiu depois que comecei a ler este white paper de Lafferty e Wasserman. No terceiro parágrafo, eles mencionam uma equação "bem conhecida" que implica que a melhor taxa de convergência é ; se alguém puder explicar isso (e explicar), isso seria muito útil.
Além disso, alguém pode me apontar para uma referência que deriva a equação "bem conhecida"?
Respostas:
Seguindo richiemorrisroe, aqui está a imagem relevante dos Elementos da Aprendizagem Estatística , capítulo 2 (pp22-27):
Como você pode ver no painel superior direito, há mais vizinhos a 1 unidade de distância em 1 dimensão do que vizinhos 1 unidade de distância em 2 dimensões. 3 dimensões seria ainda pior!
fonte
Isso não responde diretamente à sua pergunta, mas David Donoho tem um bom artigo sobre Análise de Dados em Alta Dimensão: As Maldições e Bênçãos da Dimensionalidade (slides associados estão aqui ), no qual ele menciona três maldições:
fonte
Sei que continuo me referindo a ele, mas há uma grande explicação para isso: Elementos da Aprendizagem Estatística , capítulo 2 (págs. 22-27). Eles basicamente observam que, à medida que as dimensões aumentam, a quantidade de dados precisa aumentar (exponencialmente) com eles ou não haverá pontos suficientes no espaço amostral maior para que qualquer análise útil seja realizada.
Eles se referem a um artigo de Bellman (1961) como sua fonte, que parece ser seu livro Adaptive Control Processes, disponível na Amazon aqui.
fonte
Talvez o impacto mais notório seja capturado pelo seguinte limite (que é (indiretamente) ilustrado na figura acima):
A distância na figura é a distância euclidiana baseada em . O limite expressa que a noção de distância captura cada vez menos informações sobre similaridade com aumento de dimensionalidade. Isso afeta algoritmos como o k-NN. Permitindo frações para em -norms, o efeito descrito pode ser alterado .k L kL2 k Lk
Impacto da dimensionalidade nos dados nas imagens
fonte