Densidade da distribuição normal à medida que as dimensões aumentam

A pergunta que quero fazer é a seguinte: como a proporção de amostras dentro de 1 DP da média de uma distribuição normal varia à medida que o número de variáveis aumenta?

(Quase) todo mundo sabe que em uma distribuição normal unidimensional, 68% das amostras podem ser encontradas com um desvio padrão da média. E em 2, 3, 4, ... dimensões? Eu sei que fica menos ... mas por quanto (precisamente)? Seria útil ter uma tabela mostrando as figuras para 1, 2, 3 ... 10 dimensões, bem como 1, 2, 3 ... 10 SDs. Alguém pode apontar para essa mesa?

Um pouco mais de contexto - eu tenho um sensor que fornece dados em até 128 canais. Cada canal está sujeito a ruído elétrico (independente). Quando sinto um objeto de calibração, posso calcular a média de um número suficiente de medições e obter um valor médio entre os 128 canais, juntamente com 128 desvios padrão individuais.

MAS ... quando se trata de leituras instantâneas individuais, os dados não respondem tanto como 128 leituras individuais quanto uma única leitura de uma quantidade de vetor (até) 128-dimensonal. Certamente, esta é a melhor maneira de tratar as poucas leituras críticas que fazemos (tipicamente 4-6 das 128).

Quero ter uma idéia do que é variação "normal" e do que é "discrepante" nesse espaço vetorial. Tenho certeza de que vi uma tabela como a que descrevi que se aplicaria a esse tipo de situação - alguém pode apontar para uma?

normal-distribution multivariate-analysis omatai
fonte

Por favor - posso ter apenas respostas empíricas - não entendo a maioria das notações matemáticas.

omatai

Vamos tomar : cada é normal e o são independentes - acho que é isso que você quer dizer com dimensões mais altas. $X = (X_1,\dots,X_d) \sim N(0,I)$ $X_i$ $N(0,1)$ $X_i$

Você diria que está dentro de 1 sd da média quando (a distância entre X e seu valor médio é menor que 1). Agora de modo que este acontece com probabilidade onde $X$ $||X|| < 1$ $||X||^2 = X_1^2 +\cdots+X_d^2\sim \chi^2(d)$ $P( \xi < 1 )$ $\xi\sim\chi^2(d)$ . Você pode encontrar isso em boas mesas quadradas de chi ...

Aqui estão alguns valores:

\begin{array}{ll} d & P (ξ < 1) \\ 1 & 0.68 \\ 2 & 0.39 \\ 3 & 0.20 \\ 4 & 0.090 \\ 5 & 0.037 \\ 6 & 0.014 \\ 7 & 0.0052 \\ 8 & 0.0018 \\ 9 & 0.00056 \\ 10 & 0.00017 \end{array}

$\begin{array}{ll} d& P(\xi < 1)\\ 1 & 0.68\\ 2 & 0.39 \\ 3 & 0.20 \\ 4 & 0.090 \\ 5 & 0.037 \\ 6 & 0.014 \\ 7 & 0.0052 \\ 8 & 0.0018\\ 9 & 0.00056\\ 10& 0.00017\\ \end{array}$

E para 2 sd:

\begin{array}{ll} d & P (ξ < 4) \\ 1 & 0.95 \\ 2 & 0.86 \\ 3 & 0.74 \\ 4 & 0.59 \\ 5 & 0.45 \\ 6 & 0.32 \\ 7 & 0.22 \\ 8 & 0.14 \\ 9 & 0.089 \\ 10 & 0.053 \end{array}

$\begin{array}{ll} d & P(\xi < 4)\\ 1 & 0.95\\ 2 & 0.86\\ 3 & 0.74\\ 4 & 0.59\\ 5 & 0.45\\ 6 & 0.32\\ 7 & 0.22\\ 8 & 0.14\\ 9 & 0.089\\ 10 & 0.053\\ \end{array}$

Você pode obter esses valores em R com commads como pchisq(1,df=1:10), pchisq(4,df=1:10), etc.

Post Scriptum Como o cardeal apontou nos comentários, pode-se estimar o comportamento assintótico dessas probabilidades. O CDF de uma variável é $\chi^2(d)$ ondeé afunção incompleta, e clássico.

F_{d} (x) = P (d / 2, x / 2) = \frac{γ (d / 2, x / 2)}{Γ (d / 2)}

$F_d(x) = P(d/2,x/2) = {\gamma(d/2, x/2) \over \Gamma(d/2)}$

γ (s, y) = \int_{0}^{y} t^{s - 1} e^{- t} d t

$\gamma(s,y) = \int_0^y t^{s-1} e^{-t} \mathrm d t$

γ

$\gamma$

Γ (s) = \int_{0}^{\infty} t^{s - 1} e^{- t} d t

$\Gamma(s) = \int_0^\infty t^{s-1} e^{-t} \mathrm d t$

Quando é um número inteiro, a integração repetida por partes mostra que $s$ que é a cauda do CDF da distribuição de Poisson.

P (s, y) = e^{- y} \sum_{k = s}^{\infty} \frac{y^{k}}{k!},

$P(s,y) = e^{-y} \sum_{k=s}^\infty {y^k \over k!},$

Agora, esta soma é dominada pelo seu primeiro mandato (muitas graças ao cardeal): $P(s,y) \sim {y^s \over s!} e^{-y}$ $s$ $d$

P (ξ < x) = P (d / 2, x / 2) \sim \frac{1}{(d / 2)!} {(\frac{x}{2})}^{d / 2} e^{- x / 2} \sim \frac{1}{\sqrt{π d}} e^{\frac{1}{2} (d - x)} {(\frac{x}{d})}^{\frac{d}{2}} \sim \frac{1}{\sqrt{π}} e^{- \frac{1}{2} x} d^{- \frac{1}{2} d},

$P(\xi < x) = P(d/2,x/2) \sim {1 \over (d/2)!} \left({x\over 2}\right)^{d/2} e^{-x/2} \sim {1\over\sqrt{\pi d}}e^{{1\over 2}(d-x)} \left({x\over d}\right)^{d\over 2} \sim {1\over\sqrt\pi} e^{-{1\over 2}x} d^{-{1\over 2}d},$

d

$d$

d

$d$

Elvis
fonte

Bem-vindo ao nosso site, Elvis! Boa resposta. (+1)

whuber

ξ

$\xi$

d

$d$

Obrigado por seus comentários. Não achei que essa resposta fosse receber muita atenção! É verdade que esta é uma boa forma da maldição da dimensionalidade ... @ cardinal relativa a (3) Não conheço nenhum equivalente assintótico da função gama incompleta quando os primeiros parâmetros vão para o infinito, o segundo sendo corrigido. não é fácil! Pode-se fazer uma majoração grosseira, devo escrever mais tarde.

Elvis

d

$d$ seja uniforme e tal que

d = 2 k

$d = 2 k$ . Observe que

Z_{i} = X_{2 i - 1}^{2} + X_{2 i}^{2}

$Z_i = X_{2i-1}^2 + X_{2i}^2$ é um

E x p (1 / 2)

$\mathrm{Exp}(1/2)$ random variable. So

‖ X ‖^{2} = \sum_{i = 1}^{k} Z_{i}

$\|X\|^2 = \sum_{i=1}^k Z_i$ . But, then

‖ X ‖^{2}

$\|X\|^2$ is just the time until the

k

$k$ th renewal of a Poisson process with rate 1/2. So

P (‖ X ‖^{2} < 1) = P (N_{1 / 2} (0, 1) \geq k) = e^{- 1 / 2} \sum_{x = k}^{\infty} 2^{- x} / x!

$\mathbb P(\|X\|^2 < 1 ) = \mathbb P( N_{1/2}(0,1) \geq k) = e^{-1/2} \sum_{x=k}^\infty 2^{-x}/x!$ . The tail of the Poisson is dominated by the leading term, so

P (‖ X ‖^{2} < 1) \sim e^{- 1 / 2} 2^{- k} / Γ (k + 1)

$\mathbb P(\|X\|^2 < 1) \sim e^{-1/2} 2^{-k} / \Gamma(k+1)$ as

d \to \infty

$d\to\infty$ (Again:

k = d / 2

$k = d/2$ ).

cardinal

Part of the point of the foregoing comment is that we get an exact answer for all even

d

$d$ . Also, using Stirling's approximation, we get that

P (‖ X ‖^{2} < 1) \sim e^{- 1 / 2} 2^{- k} / Γ (k + 1) \sim e^{(d - 1) / 2} d^{- (d + 1) / 2} / \sqrt{π}

$\mathbb P(\|X\|^2 < 1 ) \sim e^{-1/2} 2^{-k} / \Gamma(k+1) \sim e^{(d-1)/2} d^{-(d+1)/2} / \sqrt{\pi}$ .

cardinal

Densidade da distribuição normal à medida que as dimensões aumentam

Respostas: