Como podemos obter uma distribuição normal como

12

Vamos dizer que temos uma variável aleatória com uma gama de valores delimitada por a e b , onde a é o valor mínimo eb o valor máximo.

Disseram-me que, como n , onde n é o tamanho da nossa amostra, a distribuição amostral da nossa amostra é uma distribuição normal. Ou seja, à medida que aumentamos n nos aproximamos cada vez mais de uma distribuição normal, mas o limite real como n é igual a uma distribuição normal.

No entanto, não faz parte da definição da distribuição normal que ela deve estender de para ?

Se o máximo do nosso intervalo for b , a média máxima da amostra (independentemente do tamanho da amostra) será igual a b , e a média mínima da amostra será igual a a .

Assim, parece-me que mesmo se tomarmos o limite como n se aproxima do infinito, nossa distribuição não é uma distribuição normal real, porque é delimitada por a e b .

O que estou perdendo ?

jeremy radcliff
fonte

Respostas:

15

Aqui está o que você está perdendo. A distribuição assintótica não é de X¯n (a média da amostra), mas de n(X¯nθ), ondeθé a média deX.

Deixe- ser iid variáveis aleatórias de tal forma que um < X i < b e X i tem média θ e variância σ 2 . Assim X i tem apoio limitada. A CLT diz que X1,X2,a<Xi<bXiθσ2Xi

n(X¯nθ)dN(0,σ2),

onde é a média da amostra. AgoraX¯n

a<Xi<ba<X¯n<baθ<X¯nθ<bθn(aθ)<n(X¯nθ)<n(bθ).

Como , o limite inferior e o limite superior tendem a - e respectivamente e, portanto, como n o suporte de nné exatamente toda a linha real.n(X¯nθ)

Sempre que usamos o CLT na prática, dizemos , e isso sempre será uma aproximação.X¯nN(θ,σ2/n)


EDIT: Eu acho que parte da confusão é da má interpretação do Teorema do Limite Central. Você está certo de que a distribuição amostral da média da amostra é

X¯nN(θ,σ2/n).

No entanto, a distribuição amostral é uma propriedade finita da amostra. Como você disse, queremos deixar ; uma vez que fazemos que a sinal será um resultado exato. No entanto, se deixarmos n , não poderemos mais ter um n no lado direito (já que n é agora ). Portanto, a seguinte declaração está incorreta ˉ X n d N ( θ , σ 2 / n )  como  n .nnnn

X¯ndN(θ,σ2/n) as n.

[Aqui significa convergência em termos de distribuição]. Queremos anotar o resultado com precisão, para que n não esteja no lado direito. Aqui agora usamos propriedades de variáveis ​​aleatórias para obterdn

n(X¯nθ)dN(0,σ2)

Para ver como a álgebra funciona, veja a resposta aqui .

Greenparker
fonte
X¯nn(X¯nθ)nX¯nnn(X¯nθ) come from? Why are we interested in that distribution and not the distribution of X¯n?
jeremy radcliff
(cont'd) Is this about normalizing the distribution of the sample means? Is this where the square root comes from? Does it have to do with Z scores?
jeremy radcliff
@jeremyradcliff I have edited my answer, and included a link that explains some of the details. Hope this makes more sense now.
Greenparker
1
Thank you so much for taking the time to edit, the link you provided is exactly what I was looking for. And you're right, the problem was that I had trouble reconciling the finite nature of the sampling distribution and the fact that we are taking n to .
jeremy radcliff
7

If you're referring to a central limit theorem, note that one proper way to to write it out is

(x¯μσ)ndN(0,1)

under normal conditions (μ,σ being the mean and standard deviation of xi).

With this formal definition, you can see right away that the left hand side can take on values for any finite range given a large enough n.

To help connect to the for informal idea that "a mean approaches a normal distribution for large n", we need to realize that "approaches a normal distribution" means that the CDF's get arbitrarily close to a normal distribution as n gets large. But as n gets large, the standard deviation of this approximate distribution shrinks, so the probability of an extreme tail of the approximating normal also goes to 0.

For example, suppose XiBern(p=0.5). Then you could use the informal approximation to say that

X¯˙N(p,p(1p)n)

So while it is true that for any finite n,

P(N(p,p(1p)n)<0)>0

(implying the approximation is clearly never perfect), as n,

P(N(p,p(1p)n)<0)0

So that discrepancy between the actual distribution and approximate distribution is disappearing, as is supposed to happen with approximations.

Cliff AB
fonte