Em 1999, Beyer et al. perguntou: Quando o "vizinho mais próximo" é significativo?
Existem maneiras melhores de analisar e visualizar o efeito da planicidade da distância na pesquisa de NN desde 1999?
O conjunto de dados [dado] fornece respostas significativas para o problema 1-NN? O problema dos 10-NN? O problema 100-NN?
Como vocês especialistas abordariam essa questão hoje?
Edições segunda-feira 24 jan:
Que tal "distanciamento à distância" como um nome mais curto para "nivelamento à distância com dimensão crescente"?
Uma maneira fácil de observar o "apagão da distância" é executar o 2-NN e traçar as distâncias para o vizinho mais próximo e o segundo vizinho mais próximo. O gráfico abaixo mostra dist 1 e dist 2 para uma variedade de nclusters e dimensões, de Monte Carlo. Este exemplo mostra um bom contraste de distância para a diferença absoluta em escala | dist 2 - dist 1 |. (As diferenças relativas | dist 2 / dist 1 | → 1 como dimensão → ∞, tornam-se inúteis.)
Se erros absolutos ou relativos devem ser usados em um determinado contexto depende, é claro, do ruído "real" presente: difícil.
Sugestão: sempre execute 2-NN; 2 vizinhos são úteis quando estão próximos e úteis quando não estão.
Respostas:
Não tenho uma resposta completa para essa pergunta, mas posso dar uma resposta parcial sobre alguns dos aspectos analíticos. Aviso: estou trabalhando em outros problemas desde o primeiro artigo abaixo, por isso é muito provável que haja outras coisas boas por aí que eu não esteja ciente.
Primeiro, acho que vale a pena notar que, apesar do título do artigo "Quando o 'vizinho mais próximo' é significativo", Beyer et al realmente responderam a uma pergunta diferente, a saber, quando o NN não é significativo. Provamos o inverso de seu teorema, sob algumas suposições adicionais adicionais sobre o tamanho da amostra, em Quando o 'vizinho mais próximo' é significativo: um teorema e implicações inversos. Journal of Complexity, 25 (4), agosto de 2009, pp 385-397.e mostrou que há situações em que (em teoria) a concentração de distâncias não surgirá (damos exemplos, mas, em essência, o número de recursos que não são ruídos precisa crescer com a dimensionalidade, é claro que eles raramente surgem na prática). As referências 1 e 7 citadas em nosso artigo fornecem alguns exemplos de maneiras pelas quais a concentração da distância pode ser atenuada na prática.
Um artigo do meu supervisor, Ata Kaban, analisa se esses problemas de concentração à distância persistem, apesar da aplicação de técnicas de redução de dimensionalidade em Sobre a consciência da concentração à distância de certas técnicas de redução de dados. Reconhecimento de padrões. Vol. 44, edição 2, fev 2011, pp.265-277. . Também há uma boa discussão lá.
fonte
Você também pode estar interessado na análise de componentes de vizinhança por Goldberger et al.
Aqui, uma transformação linear é aprendida para maximizar os pontos corretamente classificados esperados através de uma seleção de vizinhança estocástica mais próxima.
Como efeito colateral, o número (esperado) de vizinhos é determinado a partir dos dados.
fonte