Eu gerei um vetor que tem uma distribuição Poisson, da seguinte maneira:
x = rpois(1000,10)
Se eu fizer um histograma usando hist(x)
, a distribuição parecerá uma familiar distribuição normal em forma de sino. No entanto, o teste de Kolmogorov-Smirnoff ks.test(x, 'pnorm',10,3)
diz que a distribuição é significativamente diferente de uma distribuição normal, devido ao p
valor muito pequeno .
Então, minha pergunta é: como a distribuição de Poisson difere de uma distribuição normal, quando o histograma se parece tão com uma distribuição normal?
Respostas:
Uma distribuição de Poisson é discreta, enquanto uma distribuição normal é contínua, e uma variável aleatória de Poisson é sempre> = 0. Portanto, um teste de Kolgomorov-Smirnov geralmente será capaz de diferenciar.
Quando a média de uma distribuição de Poisson é grande, ela se torna semelhante a uma distribuição normal. No entanto,
rpois(1000, 10)
nem parece que semelhante a uma distribuição normal (que não chega em 0 e a cauda direita é muito longo).Por que você está comparando isso ao10−−√
ks.test(..., 'pnorm', 10, 3)
invés deks.test(..., 'pnorm', 10, sqrt(10))
? A diferença entre 3 e é pequena, mas ela mesma fará diferença ao comparar distribuições. Mesmo se a distribuição realmente fosse normal, você terminaria com uma distribuição de valor p anti-conservadora:fonte
hist(replicate(1000, ks.test(rpois(1000, 10), rpois(1000, 10))$p.value))
demonstra que um teste comparando duas distribuições idênticas de Poisson seria muito conservador.Aqui está uma maneira muito mais fácil de entender:
Você pode ver a distribuição binomial como a "mãe" da maioria das distribuições. A distribuição normal é apenas uma aproximação da distribuição binomial quando n se torna grande o suficiente. De fato, Abraham de Moivre descobriu essencialmente a distribuição normal ao tentar aproximar a distribuição binomial, porque rapidamente descontrola-se calcular a distribuição binomial à medida que n cresce, especialmente quando você não possui computadores ( referência ).
Distribuição de Poisson é também apenas uma outra aproximação da distribuição binomial mas mantém muito melhor do que a distribuição normal quando n é grande e p é pequeno, ou mais precisamente, quando média é de aproximadamente igual variância (lembre-se que para a distribuição binomial, média = np e var = np (1-p)) ( referência ). Por que essa situação específica é tão importante? Aparentemente, ele aparece muito no mundo real e é por isso que temos essa aproximação "especial". O exemplo abaixo ilustra cenários em que a aproximação de Poisson funciona realmente bem.
Exemplo
Temos um datacenter de 100.000 computadores. A probabilidade de qualquer computador falhar hoje é de 0,001. Portanto, em média, np = 100 computadores falham no data center. Qual é a probabilidade de que apenas 50 computadores falhem hoje?
De fato, a qualidade da aproximação para a distribuição normal diminui quando nós seguimos a cauda da distribuição, mas Poisson continua se mantendo muito bem. No exemplo acima, vamos considerar qual é a probabilidade de que apenas cinco computadores falhem hoje?
Felizmente, isso fornece uma melhor compreensão intuitiva dessas 3 distribuições.
fonte
Um desenvolvimento bastante longo pode ser encontrado neste blog .
fonte