Alguém pode explicar como eu tenho 5 anos sobre esse problema no livro de ESL da Hastie?

9

Estou trabalhando no livro de ESL da Hastie e estou tendo dificuldades com a pergunta 2.3. A questão é a seguinte:

insira a descrição da imagem aqui

Estamos considerando uma estimativa de vizinho mais próximo na origem, e a distância mediana da origem ao ponto de dados mais próximo é dada por essa equação. Não faço ideia por onde começar em termos de tentar derivar isso.

Eu sei que a maioria dos pontos de dados está mais próxima do limite do espaço da amostra do que com qualquer outro ponto de dados (maldição da dimensionalidade), mas estou tendo problemas para traduzir isso no sentido Álgebra Linear / Probabilidade.

Obrigado!

Gary
fonte
4
O que significa o "ELI5" no título? Se você quiser derivar essa equação, precisará começar com um modelo de probabilidade para pontos na bola: qual é esse modelo? (Por favor, não exija que seus leitores se refiram a um livro ou outro site para entender sua pergunta.)
whuber
3
@ whuber eu concordo - Acrônimos são um esquema de hash terrível.
Sycorax diz Restabelecer Monica
14
Você tem cinco anos. Todo o crédito a você por querer entender a ESL, mas você terá que esperar até os seis anos. É um livro para meninos e meninas grandes.
Nick Cox
4
Uma criança de cinco anos pode começar olhando para o caso unidimensional (p = 1). E quando estiver na mão, leve-o de lá.
Mark L. Stone
3
Se o ELI5 for explicitado, e quanto à ESL?
Mdewey 31/08/16

Respostas:

15

Seja distância da origem e V 0 [ p ] seja o volume da unidade hiperesfera nas dimensões p . Então o volume contido em uma hiperesfera de raio r érV0 0[p]pr

V[r]=V0 0[p]rp

Se deixarmos denotar a fração do volume contido nessa hiperesfera e definir R = r p , entãoP=V[r]/V0 0[p]R=rp

P[R]=R

Se os pontos de dados são distribuídos uniformemente dentro da bola unitária, então para na fórmula acima é uma função de distribuição cumulativa (CDF) para R . Isso é equivalente a uma densidade de probabilidade uniforme para R no intervalo de unidades, ou seja, p [ R ] = P [ R ] = 1 . Assim, como sugerido por Mark Stone nos comentários, podemos reduzir ocaso dimensional p para um problema 1D equivalente.0 0R1 1RRp[R]=P[R]=1 1p

Agora, se tivermos um único ponto , então, por definição de um CDF, temos Pr [ R ρ ] = P [ ρ ] e Pr [ R ρ ] = 1RPr[Rρ]=P[ρ] . Se R min é o menor valor dentre n pontos e todos os pontos são independentes, o CDF para é dado por Pr [ R minρ ] = Pr [ R ρ ]Pr[Rρ]=1 1-P[ρ]Rminn (este é um resultado padrão dateoriaunivariada devalores extremos).

Pr[Rminρ]=Pr[Rρ]n=(1 1-ρ)n

Por definição da mediana, temos que podemos reescrever como (1-dp)n=1

1 12=Pr[(Rmin)medR]=(1 1-R)n
que é equivalente ao resultado desejado.
(1 1-dp)n=1 12

Edição: tentativa de resposta estilo " ELI5 ", em três partes.

  1. [0 0,1 1]1 12

  2. nn

  3. prrp

GeoMatt22
fonte
11
Ha ha, fiz o comentário de que uma criança de 5 anos pode começar olhando para o caso p = 1. Pensei em acrescentar um comentário de que uma criança de 4 anos poderia não apenas começar com o caso p = 1, mas também n = 1. Mas achei que deixaria a criança de 5 anos descobrir isso.
Mark L. Stone
11
Observe que, quando respondi à pergunta, foi depois de ter sido esclarecido pelo @fcop ler: "Considere N pontos de dados distribuídos uniformemente em uma bola unitária p-dimensional centralizada na origem. Mostre que a distância média da origem até a o ponto de dados mais próximo é dado por ... ". Portanto, uma bola unitária em relação ao eu2p