Estou trabalhando no livro de ESL da Hastie e estou tendo dificuldades com a pergunta 2.3. A questão é a seguinte:
Estamos considerando uma estimativa de vizinho mais próximo na origem, e a distância mediana da origem ao ponto de dados mais próximo é dada por essa equação. Não faço ideia por onde começar em termos de tentar derivar isso.
Eu sei que a maioria dos pontos de dados está mais próxima do limite do espaço da amostra do que com qualquer outro ponto de dados (maldição da dimensionalidade), mas estou tendo problemas para traduzir isso no sentido Álgebra Linear / Probabilidade.
Obrigado!
Respostas:
Seja distância da origem e V 0 [ p ] seja o volume da unidade hiperesfera nas dimensões p . Então o volume contido em uma hiperesfera de raio r ér V0 0[ p ] p r
Se deixarmos denotar a fração do volume contido nessa hiperesfera e definir R = r p , entãoP= V[ r ] / V0 0[ p ] R = rp
Se os pontos de dados são distribuídos uniformemente dentro da bola unitária, então para na fórmula acima é uma função de distribuição cumulativa (CDF) para R . Isso é equivalente a uma densidade de probabilidade uniforme para R no intervalo de unidades, ou seja, p [ R ] = P ′ [ R ] = 1 . Assim, como sugerido por Mark Stone nos comentários, podemos reduzir ocaso dimensional p para um problema 1D equivalente.0 ≤ R ≤ 1 R R p [ R ] = P′[ R ] = 1 p
Agora, se tivermos um único ponto , então, por definição de um CDF, temos Pr [ R ≤ ρ ] = P [ ρ ] e Pr [ R ≥ ρ ] = 1R Pr [ R ≤ ρ ] = P[ ρ ] . Se R min é o menor valor dentre n pontos e todos os pontos são independentes, o CDF para é dado por
Pr [ R min ≥ ρ ] = Pr [ R ≥ ρ ]Pr [ R ≥ ρ ] = 1 - P[ ρ ] Rmin n
(este é um resultado padrão dateoriaunivariada devalores extremos).
Por definição da mediana, temos que podemos reescrever como (1-dp)n=1
Edição: tentativa de resposta estilo " ELI5 ", em três partes.
fonte