Entendo o que é "maldição da dimensionalidade", e resolvi alguns problemas de otimização dimensional e conheço o desafio das possibilidades exponenciais.
No entanto, duvido que a "maldição da dimensionalidade" exista na maioria dos dados do mundo real (bem, vamos deixar imagens ou vídeos de lado por um momento, estou pensando em dados como dados demográficos do cliente e dados de comportamento de compra).
Podemos coletar dados com milhares de recursos, mas é menos provável que até mesmo os recursos possam abranger totalmente um espaço com milhares de dimensões. É por isso que as técnicas de redução de dimensão são tão populares.
Em outras palavras, é muito provável que os dados não contenham o nível exponencial de informações, ou seja, muitos recursos são altamente correlacionados e muitos atendem às regras 80-20 (muitas instâncias têm o mesmo valor).
Nesse caso, acho que métodos como o KNN ainda funcionarão razoavelmente bem. (Na maioria dos livros, "maldição da dimensionalidade" diz que a dimensão> 10 pode ser problemática. Em suas demonstrações, eles usam distribuição uniforme em todas as dimensões, onde a entropia é realmente alta. Duvido que no mundo real isso aconteça.)
Minha experiência pessoal com dados reais é que a "maldição da dimensionalidade" não afeta muito o método do modelo (como o KNN) e, na maioria dos casos, as dimensões ~ 100 ainda funcionariam.
Isso é verdade para outras pessoas? (Trabalhei com dados reais em diferentes setores por 5 anos, nunca observei "todos os pares de distâncias têm valores semelhantes", conforme descrito no livro.)
Respostas:
Este artigo (1) discute a bênção da não uniformidade como um contraponto à maldição da dimensionalidade. A ideia principal é que os dados não sejam uniformemente dispersos no espaço de recursos, para que você possa ganhar força identificando as maneiras pelas quais os dados são organizados.
(1) Pedro Domingos, "Algumas Coisas Úteis a Saber sobre Aprendizado de Máquina"
fonte
A maldição da dimensionalidade no aprendizado de máquina é mais frequentemente o problema de explodir o espaço vazio entre os poucos pontos de dados que você possui. Dados baixos do coletor podem piorar ainda mais. Aqui está um exemplo de configuração com 10000 amostras em que tento fazer o kNN com 1 vizinho.
Você não gostou de distribuições totalmente uniformes, por isso criei um coletor 2D com dimensões menores (reduzidas
scale
) espalhadas pelo plano 2D das duas primeiras coordenadas. Por acaso, uma das dimensões menores é preditiva (o rótulo é 1 quando essa dimensão é positiva).A precisão cai rapidamente com o aumento da dimensão.
Obviamente, precisão = 0,5 seria uma adivinhação aleatória. Com uma superfície de decisão, que é mais complicada do que um avião, ficaria ainda pior.
É como se as bolas de kNN fossem muito escassas para serem úteis na detecção de um hiperplano suave. Com dimensões mais altas, eles se sentem cada vez mais solitários.
Por outro lado, métodos como o SVM têm uma visão global e se saem muito melhor.
fonte
Considere, por exemplo, séries temporais (e imagens e áudio). As leituras dos sensores (Internet das Coisas) são muito comuns.
A maldição da dimensionalidade é muito mais comum do que você pensa. Há uma grande redundância lá, mas também muito barulho.
O problema é que muitas pessoas simplesmente evitam esses desafios de dados reais e usam apenas os mesmos conjuntos de dados UCI extraídos repetidamente.
fonte
Há um artigo maravilhoso, "Modelagem Estatística: as duas culturas" , de Breiman. Ele explica os dois grupos de cientistas que lidam com dados e como cada um deles vê a "dimensionalidade". A resposta para sua pergunta é "depende" de qual grupo você é. Verifique o papel.
fonte