Como a distribuição de Poisson é diferente da distribuição normal?

29

Eu gerei um vetor que tem uma distribuição Poisson, da seguinte maneira:

x = rpois(1000,10)

Se eu fizer um histograma usando hist(x), a distribuição parecerá uma familiar distribuição normal em forma de sino. No entanto, o teste de Kolmogorov-Smirnoff ks.test(x, 'pnorm',10,3)diz que a distribuição é significativamente diferente de uma distribuição normal, devido ao pvalor muito pequeno .

Então, minha pergunta é: como a distribuição de Poisson difere de uma distribuição normal, quando o histograma se parece tão com uma distribuição normal?

luciano
fonte
Também (como um complemento à resposta de David): leia isto ( stats.stackexchange.com/a/2498/603 ) e defina o tamanho da amostra para 100 e veja a diferença que isso faz.
user603

Respostas:

20
  1. Uma distribuição de Poisson é discreta, enquanto uma distribuição normal é contínua, e uma variável aleatória de Poisson é sempre> = 0. Portanto, um teste de Kolgomorov-Smirnov geralmente será capaz de diferenciar.

  2. Quando a média de uma distribuição de Poisson é grande, ela se torna semelhante a uma distribuição normal. No entanto, rpois(1000, 10)nem parece que semelhante a uma distribuição normal (que não chega em 0 e a cauda direita é muito longo).

  3. Por que você está comparando isso ao ks.test(..., 'pnorm', 10, 3)invés de ks.test(..., 'pnorm', 10, sqrt(10))? A diferença entre 3 e é pequena, mas ela mesma fará diferença ao comparar distribuições. Mesmo se a distribuição realmente fosse normal, você terminaria com uma distribuição de valor p anti-conservadora:10

    set.seed(1)
    
    hist(replicate(10000, ks.test(rnorm(1000, 10, sqrt(10)), 'pnorm', 10, 3)$p.value))
    

insira a descrição da imagem aqui

David Robinson
fonte
3
Muitas vezes, as pessoas vêem algo vagamente simétrico e assumem que parece "normal". Eu suspeito que o que @Ross viu.
Fraijo 16/07/12
2
Observe que o teste KS geralmente assume distribuições contínuas, portanto, contar com o valor p relatado nesse caso pode (também) ser um pouco suspeito.
cardeal
1
Verdadeiro: rodar hist(replicate(1000, ks.test(rpois(1000, 10), rpois(1000, 10))$p.value))demonstra que um teste comparando duas distribuições idênticas de Poisson seria muito conservador.
David Robinson
@Fraijo: de fato. Temos uma pergunta mais geral sobre esse tema: Se meu histograma mostra uma curva em forma de sino, posso dizer que meus dados são normalmente distribuídos?
Silverfish
17

Aqui está uma maneira muito mais fácil de entender:

Você pode ver a distribuição binomial como a "mãe" da maioria das distribuições. A distribuição normal é apenas uma aproximação da distribuição binomial quando n se torna grande o suficiente. De fato, Abraham de Moivre descobriu essencialmente a distribuição normal ao tentar aproximar a distribuição binomial, porque rapidamente descontrola-se calcular a distribuição binomial à medida que n cresce, especialmente quando você não possui computadores ( referência ).

Distribuição de Poisson é também apenas uma outra aproximação da distribuição binomial mas mantém muito melhor do que a distribuição normal quando n é grande e p é pequeno, ou mais precisamente, quando média é de aproximadamente igual variância (lembre-se que para a distribuição binomial, média = np e var = np (1-p)) ( referência ). Por que essa situação específica é tão importante? Aparentemente, ele aparece muito no mundo real e é por isso que temos essa aproximação "especial". O exemplo abaixo ilustra cenários em que a aproximação de Poisson funciona realmente bem.

Exemplo

Temos um datacenter de 100.000 computadores. A probabilidade de qualquer computador falhar hoje é de 0,001. Portanto, em média, np = 100 computadores falham no data center. Qual é a probabilidade de que apenas 50 computadores falhem hoje?

Binomial: 1.208E-8
Poisson: 1.223E-8
Normal: 1.469E-7

De fato, a qualidade da aproximação para a distribuição normal diminui quando nós seguimos a cauda da distribuição, mas Poisson continua se mantendo muito bem. No exemplo acima, vamos considerar qual é a probabilidade de que apenas cinco computadores falhem hoje?

Binomial: 2.96E-36 
Poisson: 3.1E-36
Normal: 9.6E-22

Felizmente, isso fornece uma melhor compreensão intuitiva dessas 3 distribuições.

Shital Shah
fonte
Que resposta incrível e ótima! Muito obrigado. :)
Bora M. Alper
11

λnpnpn=λ/n

Um desenvolvimento bastante longo pode ser encontrado neste blog .

XnBinomial(n,λ/n) k

P(Xn=k)=n!k!(nk)!(λn)k(1λn)nk=n!nk(nk)!1λkk!(1λ/n)neλ(1λ/n)k1.

nk

P(Xn=k)eλλkk!,
n(1λ/n)neλ

npdN(np,np(1p))p p n = λ / n 0 λ nnppn=λ/n0λn

muratoa
fonte
(+1) Bem-vindo ao site. Eu fiz algumas edições; verifique se não introduzi nenhum erro no processo. Eu não tinha muita certeza do que fazer com a última frase da última frase. Alguns esclarecimentos adicionais podem ser úteis.
cardeal
1
npnλpλ
1
nλpn1/2
Obrigado. Entendo o que você estava tentando dizer agora. Eu geralmente concordo, com a ressalva de que alguns cuidados precisam ser tomados com a relação entre os parâmetros, que são considerados fixos e que variam com os outros. :)
cardeal
λ