De onde vem o no teorema do limite central (CLT)?

36

Uma versão muito simples do teorema limitado central, como abaixo que é o CLT de Lindeberg – Lévy. Não entendo por que existe um no lado esquerdo. E o Lyapunov CLT diz mas por que não \ sqrt {s_n} ? Alguém me diria quais são esses fatores, como \ sqrt {n} e \ frac {1} {s_n} ? como os colocamos no teorema?n ( ( 1n n i=1Xi)-μ) d N(0,  σ 2 )

n((1ni=1nXi)μ) d N(0,σ2)
nn 1s n n i=1(Xi-μi) dN(0,  1 )
1sni=1n(Xiμi) d N(0,1)
s nsnnn 1s n1sn
Porco voador
fonte
3
Isso é explicado em stats.stackexchange.com/questions/3734 . Essa resposta é longa, porque pede "intuição". Conclui: "Essa aproximação simples, no entanto, sugere como de Moivre originalmente poderia suspeitar que existe uma distribuição limitadora universal, que seu logaritmo é uma função quadrática e que o fator de escala adequado s nsn deve ser proporcional a nn ... "
whuber
1
Intuitivamente, se tudo σ i = σσi=σ então s n = Σ σ 2 i =nσsn=σ2i=nσ e a segunda linha segue a partir da 1ª linha: n((1nni=1Xi)μ)=1nni=1(Xiμ)d N(0,σ2)
n((1ni=1nXi)μ)=1ni=1n(Xiμ)d N(0,σ2)
divida por σ=snnσ=snn1nni=1(Xiμ)snn=1snni=1(Xiμi)d N(0,1)
1nni=1(Xiμ)snn=1sni=1n(Xiμi)d N(0,1)
(claro que a condição de Lyapunov, combinação all σiσi , é outra questão) #
Sextus Empiricus

Respostas:

33

Boa pergunta (+1) !!

Você lembrará que, para variáveis ​​aleatórias independentes e , e . Portanto, a variação de é , e a variação de é .XXYYVar(X+Y)=Var(X)+Var(Y)Var(X+Y)=Var(X)+Var(Y)Var(aX)=a2Var(X)Var(aX)=a2Var(X)ni=1Xini=1Xini=1σ2=nσ2ni=1σ2=nσ2ˉX=1nni=1XiX¯=1nni=1Xinσ2/n2=σ2/nnσ2/n2=σ2/n

Isto é para a variação . Para padronizar uma variável aleatória, você a divide por seu desvio padrão. Como você sabe, o valor esperado de é , então a variávelˉXX¯μμ

ˉXE(ˉX)Var(ˉX)=nˉXμσ

X¯E(X¯)Var(X¯)=nX¯μσ
tem o valor esperado 0 e variância 1. Portanto, se ele tende a um gaussiano, deve ser o gaussiano padrão . Sua formulação na primeira equação é equivalente. Ao multiplicar o lado esquerdo por você define a variação para .N(0,1)N(0,1)σσσ2σ2

Com relação ao seu segundo ponto, acredito que a equação mostrada acima ilustra que você precisa dividir por e não para padronizar a equação, explicando por que você usa (o estimador de e não .σσσσsnsnσ)σ)snsn

Adição: @whuber sugere discutir o porquê da escala . Ele faz isso , mas como a resposta é muito longa, tentarei capturar a essência de seu argumento (que é uma reconstrução dos pensamentos de De Moivre).nn

Se você adicionar um grande número de + 1 e -1, poderá aproximar a probabilidade de que a soma seja por contagem elementar. O log desta probabilidade é proporcional a . Portanto, se quisermos que a probabilidade acima converja para uma constante à medida que aumenta, precisamos usar um fator de normalização em .nnjjj2/nj2/nnnO(n)O(n)

Usando ferramentas matemáticas modernas (post de Moivre), você pode ver a aproximação mencionada acima observando que a probabilidade procurada é

P(j)=(nn/2+j)2n=n!2n(n/2+j)!(n/2j)!

P(j)=(nn/2+j)2n=n!2n(n/2+j)!(n/2j)!

que aproximamos pela fórmula de Stirling

P(j)nnen/2+jen/2j2nen(n/2+j)n/2+j(n/2j)n/2j=(11+2j/n)n+j(112j/n)nj.

P(j)nnen/2+jen/2j2nen(n/2+j)n/2+j(n/2j)n/2j=(11+2j/n)n+j(112j/n)nj.

log(P(j))=(n+j)log(1+2j/n)(nj)log(12j/n)2j(n+j)/n+2j(nj)/nj2/n.

log(P(j))=(n+j)log(1+2j/n)(nj)log(12j/n)2j(n+j)/n+2j(nj)/nj2/n.
gui11aume
fonte
Por favor, veja meus comentários para respostas anteriores de Michael C. e cara.
whuber
Parece que a primeira equação (LL CLT) s / b ? Isso também me confundiu que apareceu como a variação. n((1nni=1Xi)μ) d N(0,1)n((1nni=1Xi)μ) d N(0,1)σ2σ2
B_Miner
Se você parametrizar o gaussiano com média e variância (não desvio padrão), acredito que a fórmula do OP está correta.
precisa saber é o seguinte
1
Ahh..Dado que se multiplicarmos por , obtemos o que foi mostrado pelo OP ( cancel): a saber . Mas sabemos que VAR (aX) = a ^ 2Var (X) onde, neste caso, a = e Var (X) é 1, portanto a distribuição é . ˉXE(ˉX)Var(ˉX)=nˉXμσd N(0,1)X¯E(X¯)Var(X¯)=nX¯μσd N(0,1)ˉXE(ˉX)Var(ˉX)X¯E(X¯)Var(X¯)σσσσn((1nni=1Xi)μ)n((1nni=1Xi)μ)σ2σ2N(0,σ2)N(0,σ2)
B_Miner
Gui, se não fosse tarde demais, queria ter certeza de que isso estava correto. Se assumirmos que e multiplicamos por uma constante ( ), o valor esperado dessa quantidade (por exemplo, ), que era zero ainda é zero como E [aX] = a * E [X] => * 0 = 0. Isso está correto? ˉXE(ˉX)Var(ˉX)=n(ˉXμ)d N(0,1)X¯E(X¯)Var(X¯)=n(X¯μ)d N(0,1)σσn(ˉXμ)n(X¯μ)σσ
B_Miner
8

Existe uma boa teoria de que tipo de distribuições pode estar limitando as distribuições de somas de variáveis ​​aleatórias. O recurso interessante é o seguinte livro de Petrov, do qual eu pessoalmente gostei imensamente.

Acontece que, se você está investigando limites desse tipo que são variáveis ​​aleatórias independentes, as distribuições de limites são apenas certas distribuições.1anni=1Xnbn,(1)

1ani=1nXnbn,(1)
XiXi

Há muita matemática por aí, o que se resume a vários teoremas que caracterizam completamente o que acontece no limite. Um desses teoremas é devido a Feller:

Teorema Seja uma sequência de variáveis ​​aleatórias independentes, seja a função de distribuição de e seja uma sequência de constante positiva. Para que{Xn;n=1,2,...}{Xn;n=1,2,...}Vn(x)Vn(x)XnXnanan

max1knP(|Xk|εan)0, for every fixed ε>0

max1knP(|Xk|εan)0, for every fixed ε>0

e

supx|P(a1nnk=1Xk<x)Φ(x)|0

supxP(a1nk=1nXk<x)Φ(x)0

é necessário e suficiente que

nk=1|x|εandVk(x)0 for every fixed ε>0,

k=1n|x|εandVk(x)0 for every fixed ε>0,

a2nnk=1(|x|<anx2dVk(x)(|x|<anxdVk(x))2)1

a2nk=1n(|x|<anx2dVk(x)(|x|<anxdVk(x))2)1

e

a1nnk=1|x|<anxdVk(x)0.

a1nk=1n|x|<anxdVk(x)0.

Esse teorema dá uma idéia de como deve ser um .anan

A teoria geral do livro é construída de tal maneira que a constante normativa é restrita de qualquer forma, mas os teoremas finais que dão condições necessárias e suficientes não deixam espaço para constante normativa além de .nn

mpiktas
fonte
4

s representa o desvio padrão da amostra para a média da amostra. s é a variação da amostra para a média da amostra e é igual a S / n. Onde S é a estimativa amostral da variação populacional. Como s = S / √n explica como √n aparece na primeira fórmula. Observe que haveria um σ no denominador se o limite fossennnn22nn22nn22nnnn

N (0,1), mas o limite é dado como N (0, σ ). Como S é uma estimativa consistente de σ, ela é usada na segunda equação para tirar σ fora do limite.22nn

Michael R. Chernick
fonte
E sobre a parte outro (mais básico e importante) da pergunta: por que é n e não alguma outra medida de dispersão? sn
whuber
@whuber Isso pode estar em discussão, mas não fazia parte da questão. O OP só queria saber por que s n e √n aparecem na fórmula do CLT. É claro que S n existe porque é consistente para σ e nessa forma do CLT σ é removido. nn
Michael R. Chernick 19/09/12
1
Para mim, não está claro que s n esteja presente porque é "consistente para σ ". Por que isso também não implica, digamos, que s n deve ser usado para normalizar estatísticas de valores extremos (o que não funcionaria)? Estou perdendo algo simples e auto-evidente? E, para ecoar o OP, por que não usar snσsns n - depois de tudo, isso é consistente parasnσ ! σ
whuber
O teorema, como afirmado, tem convergência para N (0,1), de modo que você precisa conhecer σ e usá-lo ou usar uma estimativa consistente dele que funcione pelo teorema de Slutsky, eu acho. Eu não estava tão claro?
Michael R. Chernick 19/09/12
Eu não acho que você não estava claro; Eu só acho que um ponto importante pode estar faltando. Afinal, para muitas distribuições, podemos obter uma distribuição normal limitadora usando o IQR em vez de s n - mas o resultado não é tão claro (o SD da distribuição limitadora depende da distribuição com a qual começamos). Estou apenas sugerindo que isso merece ser destacado e explicado. Não será tão óbvio para alguém que não tem a intuição desenvolvida pelos 40 anos de padronizar todas as distribuições que encontrar! sn
whuber
2

Intuitivamente, se Z nN ( 0 , σ 2 ) para alguns σ 2 devemos esperar que Var ( Z n ) é aproximadamente igual a σ 2 ; parece uma expectativa bastante razoável, embora eu não ache necessário em geral. A razão para o ZnN(0,σ2)σ2Var(Zn)σ2n na primeira expressão é que a variação de ˉ X n-μvai para0como 1nX¯nμ0ne então o1nn está inflando a variação, de modo que a expressão apenas tenha variação igual aσ2. Na segunda expressão, o termosné definido comonσ2snΣ n i = 1 Var ( X i ) enquanto que a variância do numerador cresce comoΣ n i = 1 Var(Xi), de modo que temos novamente que a variância de toda a expressão é uma constante (1neste caso).ni=1Var(Xi)ni=1Var(Xi)1

Essencialmente, sabemos que algo "interessante" está acontecendo com a distribuição de ˉ X n : = 1niXi, mas se não o centralizarmos e dimensionarmos adequadamente, não conseguiremos vê-lo. Já ouvi isso descrito algumas vezes como necessidade de ajustar o microscópio. Se não explodirmos (por exemplo) ˉ X -μporX¯n:=1niXiX¯μn então apenas temos ˉ X n-μ0na distribuição pela lei fraca; um resultado interessante por si só, mas não tão informativo quanto o CLT. Se inflarmos por qualquer fatoranque é dominado pornX¯nμ0ann , ainda obtemosumn( ˉ X n-μ)0enquanto qualquer fatoranque dominanan(X¯nμ)0annumn( ˉ X n-μ). Acontece quenan(X¯nμ)n é apenas a ampliação correta para poder ver o que está acontecendo neste caso (nota: toda convergência aqui está em distribuição; há outro nível de ampliação que é interessante para uma convergência quase certa, que dá origem à lei da iteração logaritmo).n

cara
fonte
4
Uma questão mais fundamental, que deve ser abordada primeiro, é por que o SD é usado para medir a dispersão. Por que não o k- ésimo momento absoluto central para algum outro valor de k ? Ou por que não o IQR ou algum de seus parentes? Uma vez que isso é respondido, propriedades simples de covariância dão imediatamente kthkn dependência (como @ Gui11aume explicou recentemente.)n
whuber
1
@whuber Eu concordo, e é por isso que apresentei isso como heurístico. Não tenho certeza de que seja passível de uma explicação simples, embora eu adorasse ouvir uma. Para mim, não tenho certeza se tenho um motivo mais simples e explicável "porque o termo quadrado é o termo relevante na expansão de Taylor da função característica depois de subtrair a média".
cara