Portanto, sabemos que uma soma de poissons com o parâmetro é em si um poisson com . Assim, hipoteticamente, uma pode demorar e dizem que é realmente onde cada é: , e tomar um grande n para obter CLT ao trabalho.
Isso (obviamente) não funciona. Suponho que isso tenha algo a ver com o modo como o CLT funciona "mais rápido" para variáveis aleatórias que estão "mais próximas" do normal e que quanto menor o lambda, mais obtemos uma variável aleatória que é geralmente 0 e varia raramente outra coisa.
No entanto, o que expliquei é a minha intuição. Existe uma maneira mais formal de explicar por que esse é o caso?
Obrigado!
Respostas:
Concordo com @whuber que a raiz da confusão parece substituir o somatório assintótico no CLT por algum tipo de divisão em seu argumento. Em CLT temos o fixo de distribuição de , em seguida, chamar a n números x i a partir dele e calcular a somaf(x,λ) n xi . Se continuarmos aumentandon, acontece uma coisa interessante:
√x¯n=1n∑ni=1xi n
ondeμ,σ2são médios e a variação da distribuiçãof(x).
O que você está sugerindo fazer com Poisson é um pouco atrasado: em vez de somar as variáveis de uma distribuição fixa , você deseja dividir a distribuição fixa em partes em constante mudança . Em outras palavras, você pega uma variável de uma distribuição fixa f ( x , λ ) e depois a divide em x i de modo que n ∑ i = 1 x i ≡ xx f(x,λ) xi
O que a CLT diz sobre esse processo? Nada. Observe como na CLT sempre mudamos e suadistribuiçãovariávelfn(x)que converge para umadistribuiçãofixaN(0,σ2)n−−√(x¯n−μ) fn(x) N(0,σ2)
Na sua configuração, nem a soma nem sua distribuição f ( x , λ ) estão mudando! Eles estão consertados. Eles não estão mudando, não estão convergindo para nada. Portanto, a CLT não tem nada a dizer sobre eles.x f(x,λ)
Além disso, o CLT não diz nada sobre o número de elementos na soma. Você pode ter uma soma de 1000 variáveis de Poisson (0,001) e o CLT não diz nada sobre a soma. Tudo o que diz é que, se você continuar aumentando N, em algum momento essa soma começará a parecer uma distribuição normal . De fato, se N = 1.000.000, você obterá uma aproximação aproximada da distribuição normal.1N∑Ni=1xi,xi∼Poisson(0.001)
Sua intuição tem razão apenas sobre o número de elementos na soma, ou seja, quanto mais a distribuição inicial for diferente do normal, mais elementos você precisará somar para chegar ao normal. A maneira mais formal (mas ainda informal) seria olhando para a função característica de Poisson: Se você Ganhe muitos > > 1 , você começa com a expansão de Taylor (wrt t ) do expoente aninhado: ≈ exp ( i λ t - λ / 2 t 2
No entanto, sua intuição não é aplicada corretamente: seu deslocamento da soma no CLT com algum tipo de divisão atrapalha as coisas e torna o CLT inaplicável.
fonte
O problema com o seu exemplo é que você está permitindo que os parâmetros sejam alterados à medida que muda. O CLT informa que, para uma distribuição fixa com média finita e sd, como n → ∞ ,n n→∞
,∑x−μn√→dN(0,σ)
onde e σ são da média e sd da distribuição de x .μ σ x
Obviamente, para diferentes distribuições (ou seja, assimetrias mais altas, por exemplo), maiores são necessários antes que a aproximação derivada desse teorema se torne razoável. No seu exemplo, para λ m = 1 / m , um n >n λm=1/m é necessária antes que a aproximação normal é razoável.n>>m
EDITAR
Há uma discussão sobre como a CLT não se aplica às somas, mas sim para somas padronizados (ie não∑x∑xi/n−−√ ). Em teoria, é claro que isso é verdade: a soma não padronizada terá uma distribuição indefinida na maioria dos casos.∑xi
No entanto, na prática, você certamente pode aplicar a aproximação justificada pelo CLT às somas! Se pode ser aproximado por um CDF normal para n grande , certamente F ∑ x também pode, pois a multiplicação por um escalar preserva a normalidade. E você pode ver isso imediatamente neste problema: Lembre-se que, se X i ~ P o i s ( λ ) , então Y = Σ n i = 1 X i ~ P o i s ( n λ )Fx¯ n F∑x Xi∼Pois(λ) Y=∑ni=1Xi∼Pois(nλ) . E todos aprendemos em nosso curso de probabilidade da divisão superior que, para grandes , o CDF de um P o i s ( λ ) pode ser aproximado muito bem por um normal com μ = λ , σ 2 = λ . Portanto, para qualquer λ fixo , podemos aproximar o CDF de Y ∼ P o i s ( n λ ) razoavelmente bem com Φ ( y - n λλ Pois(λ) μ=λ σ2=λ λ Y∼Pois(nλ) Φ(y−nλnλ√) for a large enough n if λ>0 (approximation can trivially be applied if λ=0 , but not the calculation of the CDF as I have written it).
While the CLT does not readily apply to sums, the approximation based on the CLT certainly does. I believe this is what the OP was referring to when discussing applying the CLT to the sum.
fonte
The question is, I argue, more interesting if thought about more generally, letting the distribution of the parent Poisson depend onn , say with parameter λn and λn=1 as a special case. I think it's perfectly reasonable to ask why, and how we can understand that, a central limit theorem does not hold for the sum Sn=∑ni=1Xi,n . After all, it's common to apply a CLT even in problems where the distributions of the components of the sum depend on n . It's also common to decompose Poisson distributions as the distribution of a sum of Poisson variables, and then apply a CLT.
The key issue as I see it is that your construction implies the distribution ofXi,n depends on n in such a way that the parameter of the distribution of Sn does not grow in n . If you would instead have taken, for example, Sn∼Poi(n) and made the same decomposition, the standard CLT would apply. In fact, one can think of many decompositions of a Poi(λn) distribution that allows for application of a CLT.
The Lindeberg-Feller Central Limit Theorem for triangular arrays is often used to examine convergence of such sums. As you point out,Sn∼Poi(1) for all n , so Sn cannot be asymptotically normal. Still, examining the Lindeberg-Feller condition sheds some light on when decomposing a Poisson into a sum may lead to progress.
A version of the theorem may be found in these notes by Hunter. Lets2n=Var(Sn) . The Lindeberg-Feller condition is that, ∀ϵ>0 :
Now, for the case at hand, the variance of the terms in the sum is dying off so quickly inn that sn=1 for every n . For fixed n , we also have that the Xi,n are iid. Thus, the condition is equivalent to
But, for smallϵ and large n ,
which does not approach zero. Thus, the condition fails to hold. Again, this is as expected since we already know the exact distribution ofSn for every n , but going through these calculations gives some indications of why it fails: if the variance didn't die off as quickly in n you could have the condition hold.
fonte