Como a distribuição de Poisson é diferente da distribuição normal?

Eu gerei um vetor que tem uma distribuição Poisson, da seguinte maneira:

x = rpois(1000,10)

Se eu fizer um histograma usando hist(x), a distribuição parecerá uma familiar distribuição normal em forma de sino. No entanto, o teste de Kolmogorov-Smirnoff ks.test(x, 'pnorm',10,3)diz que a distribuição é significativamente diferente de uma distribuição normal, devido ao pvalor muito pequeno .

Então, minha pergunta é: como a distribuição de Poisson difere de uma distribuição normal, quando o histograma se parece tão com uma distribuição normal?

distributions histogram normal-distribution poisson-distribution luciano
fonte

Também (como um complemento à resposta de David): leia isto ( stats.stackexchange.com/a/2498/603 ) e defina o tamanho da amostra para 100 e veja a diferença que isso faz.

user603

Respostas:

Uma distribuição de Poisson é discreta, enquanto uma distribuição normal é contínua, e uma variável aleatória de Poisson é sempre> = 0. Portanto, um teste de Kolgomorov-Smirnov geralmente será capaz de diferenciar.
Quando a média de uma distribuição de Poisson é grande, ela se torna semelhante a uma distribuição normal. No entanto, rpois(1000, 10)nem parece que semelhante a uma distribuição normal (que não chega em 0 e a cauda direita é muito longo).
Por que você está comparando isso ao ks.test(..., 'pnorm', 10, 3)invés de ks.test(..., 'pnorm', 10, sqrt(10))? A diferença entre 3 e é pequena, mas ela mesma fará diferença ao comparar distribuições. Mesmo se a distribuição realmente fosse normal, você terminaria com uma distribuição de valor p anti-conservadora: $\sqrt{10}$
```
set.seed(1)

hist(replicate(10000, ks.test(rnorm(1000, 10, sqrt(10)), 'pnorm', 10, 3)$p.value))
```

insira a descrição da imagem aqui

David Robinson
fonte

Muitas vezes, as pessoas vêem algo vagamente simétrico e assumem que parece "normal". Eu suspeito que o que @Ross viu.

Fraijo 16/07/12

Observe que o teste KS geralmente assume distribuições contínuas, portanto, contar com o valor p relatado nesse caso pode (também) ser um pouco suspeito.

cardeal

Verdadeiro: rodar hist(replicate(1000, ks.test(rpois(1000, 10), rpois(1000, 10))$p.value))demonstra que um teste comparando duas distribuições idênticas de Poisson seria muito conservador.

David Robinson

@Fraijo: de fato. Temos uma pergunta mais geral sobre esse tema: Se meu histograma mostra uma curva em forma de sino, posso dizer que meus dados são normalmente distribuídos?

Silverfish

Aqui está uma maneira muito mais fácil de entender:

Você pode ver a distribuição binomial como a "mãe" da maioria das distribuições. A distribuição normal é apenas uma aproximação da distribuição binomial quando n se torna grande o suficiente. De fato, Abraham de Moivre descobriu essencialmente a distribuição normal ao tentar aproximar a distribuição binomial, porque rapidamente descontrola-se calcular a distribuição binomial à medida que n cresce, especialmente quando você não possui computadores ( referência ).

Distribuição de Poisson é também apenas uma outra aproximação da distribuição binomial mas mantém muito melhor do que a distribuição normal quando n é grande e p é pequeno, ou mais precisamente, quando média é de aproximadamente igual variância (lembre-se que para a distribuição binomial, média = np e var = np (1-p)) ( referência ). Por que essa situação específica é tão importante? Aparentemente, ele aparece muito no mundo real e é por isso que temos essa aproximação "especial". O exemplo abaixo ilustra cenários em que a aproximação de Poisson funciona realmente bem.

Exemplo

Temos um datacenter de 100.000 computadores. A probabilidade de qualquer computador falhar hoje é de 0,001. Portanto, em média, np = 100 computadores falham no data center. Qual é a probabilidade de que apenas 50 computadores falhem hoje?

Binomial: 1.208E-8
Poisson: 1.223E-8
Normal: 1.469E-7

De fato, a qualidade da aproximação para a distribuição normal diminui quando nós seguimos a cauda da distribuição, mas Poisson continua se mantendo muito bem. No exemplo acima, vamos considerar qual é a probabilidade de que apenas cinco computadores falhem hoje?

Binomial: 2.96E-36 
Poisson: 3.1E-36
Normal: 9.6E-22

Felizmente, isso fornece uma melhor compreensão intuitiva dessas 3 distribuições.

Shital Shah
fonte

Que resposta incrível e ótima! Muito obrigado. :)

Bora M. Alper

$\lambda$ $n$ $p_n$ $p_n = \lambda / n$

Um desenvolvimento bastante longo pode ser encontrado neste blog .

$X_n \sim \mathrm{Binomial}(n,\lambda/n)$ $k$

\begin{aligned} P (X_{n} = k) & = \frac{n!}{k! (n - k)!} {(\frac{λ}{n})}^{k} {(1 - \frac{λ}{n})}^{n - k} \\ = \underset{\to 1}{\underset{⏟}{\frac{n! n^{- k}}{(n - k)!}}} \frac{λ^{k}}{k!} \underset{\to e^{- λ}}{\underset{⏟}{(1 - λ / n)^{n}}} \cdot \underset{\to 1}{\underset{⏟}{(1 - λ / n)^{- k}}} . \end{aligned}

$\begin{align} \mathbb P(X_n = k) &= \frac{n!}{k!(n-k)!} \left(\frac{\lambda}{n}\right)^k \left(1-\frac{\lambda}{n}\right)^{n-k} \\ &= \underbrace{\frac{n! n^{-k}}{(n-k)!}}_{\to 1} \frac{\lambda^k}{k!}\underbrace{(1-\lambda/n)^n}_{\to e^{-\lambda}} \cdot \underbrace{(1-\lambda/n)^{-k}}_{\to 1} \>. \end{align}$

$n \to \infty$ $k$

P (X_{n} = k) \to \frac{e^{- λ} λ^{k}}{k!},

$\mathbb P(X_n = k) \to \frac{e^{-\lambda} \lambda^k}{k!} \,,$

n \to \infty

$n \to \infty$

(1 - λ / n)^{n} \to e^{- λ}

$(1-\lambda/n)^n \to e^{-\lambda}$

$n$ $p$ $\approxeq^d \mathcal N(np, np(1-p))$ $n \rightarrow \infty$ $p$ $p_n = \lambda / n \rightarrow 0$ $\lambda$ $n$

muratoa
fonte

(+1) Bem-vindo ao site. Eu fiz algumas edições; verifique se não introduzi nenhum erro no processo. Eu não tinha muita certeza do que fazer com a última frase da última frase. Alguns esclarecimentos adicionais podem ser úteis.

cardeal

n p_{n} \approx λ

$n p_n \approx \lambda$

p

$p$

λ

$\lambda$

n

$n$

λ

$\lambda$

p_{n}

$p_n$

1 / 2

$1/2$

Obrigado. Entendo o que você estava tentando dizer agora. Eu geralmente concordo, com a ressalva de que alguns cuidados precisam ser tomados com a relação entre os parâmetros, que são considerados fixos e que variam com os outros. :)

cardeal

λ

$\lambda$