Em Elements of Statistical Learning , um problema é introduzido para destacar problemas com k-nn em espaços de alta dimensão. Existem pontos de dados que são distribuídos uniformemente em uma esfera unitária dimensional.
A distância média da origem ao ponto de dados mais próximo é dada pela expressão:
Quando , a fórmula se divide em metade do raio da bola, e posso ver como o ponto mais próximo se aproxima da borda como , fazendo com que a intuição por trás do knn se quebre em grandes dimensões. Mas não consigo entender por que a fórmula depende de N. Alguém poderia esclarecer?
Além disso, o livro aborda essa questão ainda mais afirmando: "... a previsão é muito mais difícil perto das bordas da amostra de treinamento. É preciso extrapolar dos pontos de amostra vizinhos em vez de interpolar entre eles". Parece uma afirmação profunda, mas não consigo entender o que isso significa. Alguém poderia reformular?
fonte
Respostas:
O volume de uma hiperbola dimensional do raio tem um volume proporcional a .p r rp
Portanto, a proporção do volume a mais de uma distância da origem é .kr rp−(kr)prp=1−kp
A probabilidade de que todos os pontos escolhidos aleatoriamente são mais do que uma distância a partir da origem é . Para obter a distância mediana para o ponto aleatório mais próximo, defina essa probabilidade igual a . EntãoN kr (1−kp)N 12
Intuitivamente isto faz algum sentido: os pontos mais aleatórias existem, o mais perto que você espera a mais próxima à origem para ser, então você deve esperar ser uma função decrescente do . Aqui é uma função decrescente de , então é uma função crescente de e, portanto, é uma diminuição da função de como é o seu th raiz.k N 21/N N 121/N N 1−121/N N p
fonte
E agora sem a mão acenando
Para qualquer sequência de IDs, onde é o CDF comum
Portanto, se tivermos iid distribuído uniformemente na esfera unitária em dimensões, então em que é a CDF comum das distâncias, . Finalmente, qual é o CDF, , para um ponto uniformemente distribuído na bola unitária em ? A probabilidade de que o ponto esteja na bola de raio r dentro da bola de raio unitário é igual à razão de volumes:N Xi p
Assim, a solução para
é
Também sua pergunta sobre a dependência do tamanho da amostra, . Para fixo, à medida que a bola se enche de mais pontos, naturalmente a distância mínima à origem deve se tornar menor.N p
Finalmente, há algo errado na sua proporção de volumes. Parece que deve ser o volume da bola unitária em .k Rp
fonte
Como conciso, mas em palavras:
Queremos encontrar a distância média do ponto mais próximo da origem em pontos uniformemente distribuídos na bola na origem do raio unitário nas dimensões . A probabilidade de que a menor distância excede , (chamar esta expressão quantidade [1]) é o poder da probabilidade de que um único ponto uniformemente distribuído excede , por causa da independência estatística. O último é um menos a probabilidade de que um único ponto uniformemente distribuído seja menor que . Este último é a razão entre os volumes da bola de raio e a bola de raio unitário, ou . Agora podemos escrever a expressão [1] comoN p r Nth r r r rp
Para encontrar a mediana da distribuição do mínimo das distâncias, defina a probabilidade acima como e resolva para , obtendo a resposta.1/2 r
fonte