A pergunta que quero fazer é a seguinte: como a proporção de amostras dentro de 1 DP da média de uma distribuição normal varia à medida que o número de variáveis aumenta?
(Quase) todo mundo sabe que em uma distribuição normal unidimensional, 68% das amostras podem ser encontradas com um desvio padrão da média. E em 2, 3, 4, ... dimensões? Eu sei que fica menos ... mas por quanto (precisamente)? Seria útil ter uma tabela mostrando as figuras para 1, 2, 3 ... 10 dimensões, bem como 1, 2, 3 ... 10 SDs. Alguém pode apontar para essa mesa?
Um pouco mais de contexto - eu tenho um sensor que fornece dados em até 128 canais. Cada canal está sujeito a ruído elétrico (independente). Quando sinto um objeto de calibração, posso calcular a média de um número suficiente de medições e obter um valor médio entre os 128 canais, juntamente com 128 desvios padrão individuais.
MAS ... quando se trata de leituras instantâneas individuais, os dados não respondem tanto como 128 leituras individuais quanto uma única leitura de uma quantidade de vetor (até) 128-dimensonal. Certamente, esta é a melhor maneira de tratar as poucas leituras críticas que fazemos (tipicamente 4-6 das 128).
Quero ter uma idéia do que é variação "normal" e do que é "discrepante" nesse espaço vetorial. Tenho certeza de que vi uma tabela como a que descrevi que se aplicaria a esse tipo de situação - alguém pode apontar para uma?
Respostas:
Vamos tomar : cada X i é N normal ( 0 , 1 ) e o X i são independentes - acho que é isso que você quer dizer com dimensões mais altas.X=(X1,…,Xd)∼N(0,I) Xi N(0,1) Xi
Você diria que está dentro de 1 sd da média quando | | X | | < 1 (a distância entre X e seu valor médio é menor que 1). Agora | | X | | 2 = X 2 1 + ⋯ + X 2 d ~ χ 2 ( d ) de modo que este acontece com probabilidade P ( ξ < 1 ) onde ξ ~ χ 2 ( d )X ||X||<1 ||X||2=X21+⋯+X2d∼χ2(d) P(ξ<1) ξ∼χ2(d) . Você pode encontrar isso em boas mesas quadradas de chi ...
Aqui estão alguns valores:
E para 2 sd:
Você pode obter esses valores em R com commads como
pchisq(1,df=1:10)
,pchisq(4,df=1:10)
, etc.Post Scriptum Como o cardeal apontou nos comentários, pode-se estimar o comportamento assintótico dessas probabilidades. O CDF de uma variável é F d ( x ) = P ( d / 2 , x / 2 ) = γ ( d / 2 , x / 2 )χ2(d)
ondeγ(s,y)=∫y0ts-1e-tdté afunçãoyincompleta, e clássicoΓ(s)=∫∞0ts-1e-tdt.
Quando é um número inteiro, a integração repetida por partes mostra que P ( s , y ) = e - y ∞ ∑ k = s y ks
que é a cauda do CDF da distribuição de Poisson.
Agora, esta soma é dominada pelo seu primeiro mandato (muitas graças ao cardeal):P(s,y)∼yss!e−y s d
fonte