Aproximação normal à distribuição de Poisson

12

Aqui na Wikipedia diz:

Para valores suficientemente grandes de $λ$ , (digamos $λ>1000$ ), a distribuição normal com média $λ$ e variância $λ$ (desvio padrão $\sqrt{\lambda}$ ) é uma excelente aproximação à distribuição de Poisson. Se $λ$ for maior que cerca de 10, a distribuição normal será uma boa aproximação se uma correção de continuidade apropriada for realizada, ou seja, $P(X ≤ x),$ onde (em minúsculas) $x$ é um número inteiro não negativo, é substituído por $P(X ≤ x + 0.5).$

$F_\mathrm{Poisson}(x;\lambda) \approx F_\mathrm{normal}(x;\mu=\lambda,\sigma^2=\lambda)$

Infelizmente isso não é citado. Eu quero ser capaz de mostrar / provar isso com algum rigor. Como você pode realmente dizer que a distribuição normal é uma boa aproximação quando $\lambda > 1000$ , como você quantifica essa aproximação 'excelente', que medidas foram usadas?

O mais longe que eu consegui disso é aqui, onde John fala sobre o uso do teorema de Berry – Esseen e aproxima o erro nos dois CDFs. Pelo que posso ver, ele não tenta nenhum valor de $\lambda \geq 1000$ .

normal-distribution poisson-distribution approximation hgeop
fonte

6

Você não pode provar isso sem definir 'bom'. (Você pode provar um resultado assintótico, mas não pode declarar que é 'bom' em um tamanho de amostra específico sem definir seus critérios.) Você pode demonstrar seu comportamento por exemplo direto (a partir do qual as pessoas podem ver quão bom é 'bom') é por suas próprias luzes). Para critérios típicos que as pessoas tendem a usar, uma correção de continuidade funciona bem para , desde que você não mergulhe profundamente.

λ > 10

$\lambda>10$

Glen_b -Replica Monica

1

(Para ser mais específico, se o seu critério for erro absoluto, você pode potencialmente alcançar 'bom' em todos os lugares, em amostras pequenas como 10, mas a maioria das pessoas se preocupa com algo mais próximo do erro relativo)

Glen_b -Reinstate Monica

7

Suponha que seja Poisson com o parâmetro e seja normal com média e variância . Parece-me que a comparação apropriada é entre e . Aqui, por simplicidade, escrevo , ou seja, estamos interessados quando corresponde a desvios padrão da média. $X$ $\lambda$ $Y$ $\lambda$ $\Pr(X = n)$ $\Pr(Y \in [n-\frac12,n+\frac12])$ $n = \lambda + \alpha \sqrt\lambda$ $n$ $\alpha$

Então eu traí. Eu usei o Mathematica. Portanto, e são assintóticos a como . Mas a diferença deles é assintótica para Se Se você plotar isso como uma função de , obterá a mesma curva mostrada na penúltima figura em http://www.johndcook.com/blog/normal_approx_to_poisson/ . $\Pr(X = n)$ $\Pr(Y \in [n-\frac12,n+\frac12])$

\frac{1}{\sqrt{2 π λ}} e^{- α^{2} / 2}

$\frac 1{\sqrt{2\pi \lambda}} e^{-\alpha^2/2}$

λ \to \infty

$\lambda \to \infty$

\frac{α (α^{2} - 3) e^{- α^{2} / 2}}{6 \sqrt{2 π} λ}

$\frac{\alpha \left(\alpha ^2-3\right) e^{-\alpha ^2/{2}}}{6 \sqrt{2 \pi } \lambda }$

α

$\alpha$

Aqui estão os comandos que eu usei:

  n = lambda + alpha Sqrt[lambda];
  p1 = Exp[-lambda] lambda^n/n!;
  p2 = Integrate[1/Sqrt[2 Pi]/Sqrt[lambda] Exp[-(x-lambda)^2/2/lambda], {x, n-1/2, n+1/2}];
  Series[p1, {lambda, Infinity, 1}]
  Series[p2, {lambda, Infinity, 1}]

Além disso, com um pouco de experimentação, parece-me que uma melhor aproximação assintótica de é . Então o erro é que é aproximadamente vezes menor. $\Pr(X = n)$ $\Pr(Y \in [n-\alpha^2/6,n+1-\alpha^2/6])$

- \frac{(5 α^{4} - 9 α^{2} - 6) e^{- α^{2} / 2}}{72 \sqrt{2 π} λ^{3 / 2}}

$-\frac{\left(5 \alpha ^4-9 \alpha ^2-6\right) e^{-{\alpha ^2}/{2}} }{72 \sqrt{2 \pi } \lambda ^{3/2} }$

\sqrt{λ}

$\sqrt\lambda$

Stephen Montgomery-Smith
fonte

2

Glen_b está correto, pois "bom ajuste" é uma noção muito subjetiva. No entanto, se você deseja verificar se sua distribuição de poisson é razoavelmente normal, você pode usar um teste hipotético de Kolmorgov-Smirnov com a hipótese nula sendo O CDF veio de uma distribuição , assumindo sua amostra virá de um poisson ( ). Como você não está realmente testando uma amostra, mas uma distribuição contra outra, é necessário pensar cuidadosamente sobre o tamanho da amostra e o nível de significância assumido para esse teste hipotético (uma vez que não estamos usando o teste KS da maneira típica). Isso é: $H_{0}:$ $N(\lambda,\lambda)$ $\lambda$

Escolha um tamanho de amostra hipotético representativo, ne ajuste o nível de significância do teste para um valor típico, por exemplo, 5%.

Agora, calcule a taxa de erro do Tipo II para este teste, assumindo que seus dados realmente provêm de um poisson ( ). Seu grau de adequação a uma distribuição normal será essa taxa de erro do Tipo II, no sentido de que amostras de tamanho n de sua distribuição de poisson específica serão, em média, aceitas % do tempo por um teste de normalidade KS no seu país selecionado. nível de significância. $\lambda$ $\beta$

Enfim, essa é apenas uma maneira de obter uma sensação de "qualidade do ajuste". No entanto, todos confiam em algumas noções subjetivas de "bondade" que você terá que definir por si mesmo.

fonte

2

A derivação da distribuição binomial pode lhe dar algumas dicas.

Temos uma variável aleatória binomial;

p (x) = (\binom{n}{x}) p^{x} (1 - p)^{n - x}

$p(x) = {n \choose x} p^x (1-p)^{n-x}$

Como alternativa, isso pode ser computado recursivamente;

p (x) = \frac{(n - x + 1) p}{x (1 - p)} p (x - 1)

$p(x) = \frac{(n-x+1)p}{x(1-p)}p(x-1)$

Se você mantiver a condição inicial;

p (0) = (1 - p)^{n}

$p(0) = (1-p)^n$

Agora vamos assumir que é grande é pequeno, mas o sucesso médio de é constante . Então podemos fazer o seguinte; $n$ $p$ $p(x)$ $(np = \lambda)$

P (X = i) = (\binom{n}{i}) p^{x} (1 - p)^{n - x}

$P( X = i ) = {n \choose i} p^x (1-p)^{n-x}$

Usamos esse . $p = \lambda / n$

P (X = i) = \frac{n!}{(n - i)! i!} {(\frac{λ}{n})}^{i} {(1 - \frac{λ}{n})}^{n - i}

$P( X = i ) = \frac{n!}{(n-i)!i!} \left(\frac{\lambda}{n}\right)^i \left(1-\frac{\lambda}{n}\right)^{n-i}$

Nós trocamos algumas variáveis e avaliamos;

P (X = i) = \frac{n (n - 1) (n - 2) \dots (n - i + 1)}{n^{i}} \frac{λ^{i}}{i!} \frac{(1 - \frac{λ}{n})^{n}}{(1 - \frac{λ}{n})^{i}}

$P( X = i ) = \frac{n(n-1)(n-2)\cdots(n-i+1)}{n^i} \frac{\lambda^i}{i!} \frac{(1-\frac{\lambda}{n})^n}{(1-\frac{\lambda}{n})^i}$

Do cálculo, sabemos que . Também sabemos que porque tanto a parte superior quanto a inferior são polinômios de grau . $\lim_{n\to\infty} (1 + x/n)^n = e^x$ $[n(n-1)(n-2)\cdots(n-i+1)]/n^i \approx 1$ $i$

Isso leva à conclusão de que, como : $n \to \infty$

P (X = i) \to \frac{e^{- λ} λ^{i}}{i!}

$P(X=i) \to \frac{ e^{-\lambda}{\lambda^i}}{i!}$

Você pode verificar se e através da definição. Sabemos que a distribuição binomial se aproxima do normal nas condições do Teorema de De Moivre-Laplace , desde que você corrija a continuidade, razão pela qual é substituído por . $E(X) = \lambda$ $\operatorname{Var}(X) = \lambda$ $P(X\le x)$ $P(X\le x+0.5)$

Vincent Warmerdam
fonte

Aproximação normal à distribuição de Poisson

Respostas: