Por que não o trabalho CLT para

16

Portanto, sabemos que uma soma de n poissons com o parâmetro λ é em si um poisson com nλ . Assim, hipoteticamente, uma pode demorar xpoisson(λ=1) e dizem que é realmente 1nxipoisson(λ=1) onde cada xi é: xipoisson(λ=1/n) , e tomar um grande n para obter CLT ao trabalho.

Isso (obviamente) não funciona. Suponho que isso tenha algo a ver com o modo como o CLT funciona "mais rápido" para variáveis ​​aleatórias que estão "mais próximas" do normal e que quanto menor o lambda, mais obtemos uma variável aleatória que é geralmente 0 e varia raramente outra coisa.

No entanto, o que expliquei é a minha intuição. Existe uma maneira mais formal de explicar por que esse é o caso?

Obrigado!

Tal Galili
fonte
6
Para iniciantes, o CLT precisa que você divida i=1nxi por n (nesse caso, você converge para um gaussiano).
Alex R.
1
@AlexR. Não, você divide por n , então o desvio padrão será um fator de 1/n
Aksakal
4
Não vejo o que essa pergunta tem a ver com o CLT "não está funcionando". O CLT refere-se a somas padronizadas de variáveis ​​aleatórias com uma determinada distribuição, enquanto você está pegando uma única variável aleatória e contemplando infinitamente várias maneiras de dividi -la.
whuber
2
@AlexR A configuração parece estar errada. Existem dois processos diferentes em andamento aqui - somatório e divisão - e não há razão para supor que eles devam ter características assintóticas semelhantes.
whuber
3
@ Akksakal: na verdade, AlexR está correto. Se você dividir por , obterá uma distribuição degenerada como n . Se você dividir por nn , você aborda uma distribuição normal com sd = 1 comon. nn
Cliff AB

Respostas:

13

Concordo com @whuber que a raiz da confusão parece substituir o somatório assintótico no CLT por algum tipo de divisão em seu argumento. Em CLT temos o fixo de distribuição de , em seguida, chamar a n números x i a partir dele e calcular a somaf(x,λ)nxi . Se continuarmos aumentandon, acontece uma coisa interessante: x¯n=1ni=1nxin ondeμ,σ2são médios e a variação da distribuiçãof(x).

n(x¯nμ)N(0,σ2)
μ,σ2f(x)

O que você está sugerindo fazer com Poisson é um pouco atrasado: em vez de somar as variáveis ​​de uma distribuição fixa , você deseja dividir a distribuição fixa em partes em constante mudança . Em outras palavras, você pega uma variável de uma distribuição fixa f ( x , λ ) e depois a divide em x i de modo que n i = 1 x ixxf(x,λ)xi

i=1nxix

O que a CLT diz sobre esse processo? Nada. Observe como na CLT sempre mudamos e suadistribuiçãovariávelfn(x)que converge para umadistribuiçãofixaN(0,σ2)n(x¯nμ)fn(x)N(0,σ2)

Na sua configuração, nem a soma nem sua distribuição f ( x , λ ) estão mudando! Eles estão consertados. Eles não estão mudando, não estão convergindo para nada. Portanto, a CLT não tem nada a dizer sobre eles.xf(x,λ)

Além disso, o CLT não diz nada sobre o número de elementos na soma. Você pode ter uma soma de 1000 variáveis ​​de Poisson (0,001) e o CLT não diz nada sobre a soma. Tudo o que diz é que, se você continuar aumentando N, em algum momento essa soma começará a parecer uma distribuição normal . De fato, se N = 1.000.000, você obterá uma aproximação aproximada da distribuição normal.1Ni=1Nxi,xiPoisson(0.001)

Sua intuição tem razão apenas sobre o número de elementos na soma, ou seja, quanto mais a distribuição inicial for diferente do normal, mais elementos você precisará somar para chegar ao normal. A maneira mais formal (mas ainda informal) seria olhando para a função característica de Poisson: Se você Ganhe muitos > > 1 , você começa com a expansão de Taylor (wrt t ) do expoente aninhado: exp ( i λ t - λ / 2 t 2

exp(λ(exp(it)1))
λ>>1t Esta é a função característica da distribuição normal
exp(iλtλ/2t2)
N(λ,λ2)

No entanto, sua intuição não é aplicada corretamente: seu deslocamento da soma no CLT com algum tipo de divisão atrapalha as coisas e torna o CLT inaplicável.

Aksakal
fonte
+1 O material do prefatório é bem redigido, muito claro e chega ao cerne da questão.
whuber
7

O problema com o seu exemplo é que você está permitindo que os parâmetros sejam alterados à medida que muda. O CLT informa que, para uma distribuição fixa com média finita e sd, como n ,nn

,xμndN(0,σ)

onde e σ são da média e sd da distribuição de x .μσx

Obviamente, para diferentes distribuições (ou seja, assimetrias mais altas, por exemplo), maiores são necessários antes que a aproximação derivada desse teorema se torne razoável. No seu exemplo, para λ m = 1 / m , um n >nλm=1/m é necessária antes que a aproximação normal é razoável.n>>m

EDITAR

Há uma discussão sobre como a CLT não se aplica às somas, mas sim para somas padronizados (ie nãoxxi/n ). Em teoria, é claro que isso é verdade: a soma não padronizada terá uma distribuição indefinida na maioria dos casos.xi

No entanto, na prática, você certamente pode aplicar a aproximação justificada pelo CLT às somas! Se pode ser aproximado por um CDF normal para n grande , certamente F x também pode, pois a multiplicação por um escalar preserva a normalidade. E você pode ver isso imediatamente neste problema: Lembre-se que, se X i ~ P o i s ( λ ) , então Y = Σ n i = 1 X i ~ P o i s ( n λ )Fx¯nFxXiPois(λ)Y=i=1nXiPois(nλ). E todos aprendemos em nosso curso de probabilidade da divisão superior que, para grandes , o CDF de um P o i s ( λ ) pode ser aproximado muito bem por um normal com μ = λ , σ 2 = λ . Portanto, para qualquer λ fixo , podemos aproximar o CDF de Y P o i s ( n λ ) razoavelmente bem com Φ ( y - n λλPois(λ)μ=λσ2=λ λYPois(nλ)Φ(ynλnλ) for a large enough n if λ>0 (approximation can trivially be applied if λ=0, but not the calculation of the CDF as I have written it).

While the CLT does not readily apply to sums, the approximation based on the CLT certainly does. I believe this is what the OP was referring to when discussing applying the CLT to the sum.

Cliff AB
fonte
5

The question is, I argue, more interesting if thought about more generally, letting the distribution of the parent Poisson depend on n, say with parameter λn and λn=1 as a special case. I think it's perfectly reasonable to ask why, and how we can understand that, a central limit theorem does not hold for the sum Sn=i=1nXi,n. After all, it's common to apply a CLT even in problems where the distributions of the components of the sum depend on n. It's also common to decompose Poisson distributions as the distribution of a sum of Poisson variables, and then apply a CLT.

The key issue as I see it is that your construction implies the distribution of Xi,n depends on n in such a way that the parameter of the distribution of Sn does not grow in n. If you would instead have taken, for example, SnPoi(n) and made the same decomposition, the standard CLT would apply. In fact, one can think of many decompositions of a Poi(λn) distribution that allows for application of a CLT.

The Lindeberg-Feller Central Limit Theorem for triangular arrays is often used to examine convergence of such sums. As you point out, SnPoi(1) for all n, so Sn cannot be asymptotically normal. Still, examining the Lindeberg-Feller condition sheds some light on when decomposing a Poisson into a sum may lead to progress.

A version of the theorem may be found in these notes by Hunter. Let sn2=Var(Sn). The Lindeberg-Feller condition is that, ϵ>0:

1sn2i=1nE[Xi,n1/n]2I(|Xi,n1/n|>ϵsn)0,n

Now, for the case at hand, the variance of the terms in the sum is dying off so quickly in n that sn=1 for every n. For fixed n, we also have that the Xi,n are iid. Thus, the condition is equivalent to

nE[X1,n1/n]2I(|X1,n1/n|>ϵ)0.

But, for small ϵ and large n,

nE[X1,n1/n]2I(|X1,n1/n|>ϵ)>nϵ2P(X1,n>0)=ϵ2n[1e1/n]=ϵ2n[1(11/n+o(1/n))]=ϵ2+o(1),

which does not approach zero. Thus, the condition fails to hold. Again, this is as expected since we already know the exact distribution of Sn for every n, but going through these calculations gives some indications of why it fails: if the variance didn't die off as quickly in n you could have the condition hold.

ekvall
fonte
+1 This nicely illuminates a comment by @AlexR to the question, too.
whuber