Entenda intuitivamente por que a distribuição de Poisson é o caso limitante da distribuição binomial

14

Em "Data Analysis" do DS Sivia, há uma derivação da distribuição de Poisson, da distribuição binomial.

Eles argumentam que a distribuição de Poisson é o caso limitante da distribuição binomial quando , onde é o número de tentativas.MM

Pergunta 1: Como esse argumento pode ser intuitivamente entendido?

Pergunta 2: Por que o limite grande- de igual a , Em que é o número de sucessos em ensaios? (Esta etapa é usada na derivação.)MM!N!(MN)!MNN!NM

Ytsen de Boer
fonte
Isso é relevante: stats.stackexchange.com/questions/180057/…
kjetil b halvorsen

Respostas:

5

Vou tentar uma explicação intuitiva simples. Registre que para uma variável aleatória binomial , temos a expectativa é n p e a variação é n p ( 1 - p ) . Agora pense que X registra o número de eventos em um número muito grande n de tentativas, cada uma com uma probabilidade muito pequena , de modo que estamos muito próximos de (realmente ). Então temos say eXBin(n,p)npnp(1p)Xnp1p=1np=λnp(1p)np1=λ, portanto, a média e a variância são iguais a . Lembre-se então de que para uma variável aleatória distribuída de poisson, sempre temos média e variância iguais! Esse é pelo menos um argumento de plausibilidade para a aproximação de poisson, mas não uma prova.λ

Então olhe para ele de outro ponto de vista, o processo do ponto de poisson https://en.wikipedia.org/wiki/Poisson_point_process na linha real. Esta é a distribuição de pontos aleatórios na linha que obtemos se pontos aleatórios ocorrerem de acordo com as regras:

  1. pontos em intervalos separados são independentes
  2. A probabilidade de um ponto aleatório em um intervalo muito curto é proporcional à duração do intervalo
  3. a probabilidade de dois ou mais pontos em um intervalo muito curto é essencialmente zero.

Então a distribuição do número de pontos em um determinado intervalo (não necessariamente curto) é Poisson (com o parâmetro proporcional ao comprimento). Agora, se dividirmos esse intervalo em muitos subintervalos igualmente curtos ( ), a probabilidade de dois ou mais pontos em um determinado subintervalo é essencialmente zero, de modo que esse número terá, para uma aproximação muito boa, uma distribuição de bernolli, isto é, , de modo que a soma de tudo isso será , portanto, uma boa aproximação da distribuição poisson do número de pontos nesse (longo) intervalo.n Bin ( 1 , p ) Bin ( n , p )λnBin(1,p)Bin(n,p)

Editar a partir de Ytsen de Boer (OP): a pergunta número 2 é respondida satisfatoriamente por @ Łukasz Grad.

kjetil b halvorsen
fonte
6

Deixe-me fornecer uma heurística alternativa. Vou mostrar como aproximar o processo de Poisson como um binômio (e argumentar que a aproximação é melhor para muitos ensaios com baixa probabilidade). Portanto, a distribuição binomial deve tender à distribuição de Poisson.

Digamos que os eventos estejam acontecendo com uma taxa constante no tempo. Queremos saber a distribuição de quantos eventos ocorreram em um dia, sabendo que o número esperado de eventos é λ .

Bem, o número esperado de eventos por hora é λ/24 . Vamos fingir que isso significa que a probabilidade de um evento acontecer em uma determinada hora é λ/24 . [não está certo, mas é uma aproximação decente se λ/241 basicamente se pudermos assumir que vários eventos não acontecem na mesma hora]. Então podemos aproximar a distribuição do número de eventos como um binômio com M=24 tentativas, cada uma com probabilidade de sucesso λ/24 .

Melhoramos a aproximação alternando nosso intervalo para minutos. Então é p=λ/1440 com M=1440 tentativas. Se λ estiver por perto, digamos 10, podemos estar bastante confiantes de que nenhum minuto teve dois eventos.

Claro que melhora se mudarmos para segundos. Agora, observamos M=86400 eventos, cada um com a pequena probabilidade λ/86400 .

Não importa quão grande o seu λ é, eu posso eventualmente escolher uma pequena o suficiente Δt tal que é muito provável que não há dois eventos acontecem no mesmo intervalo. Em seguida, a distribuição binomial correspondente a esse Δt vai ser um excelente jogo para a verdadeira distribuição de Poisson.

A única razão pela qual eles não são exatamente iguais é que há uma probabilidade diferente de zero de que dois eventos ocorram no mesmo intervalo de tempo. Porém, dado que existem apenas eventos λ e eles são distribuídos em um número de posições muito maior que λ , é improvável que dois deles se encontrem na mesma posição.

Ou, por outras palavras, a distribuição binomial tende para a distribuição de Poisson como M se a probabilidade de sucesso é p=λ/M .

Joel
fonte
5

Questão 1

Lembre-se da definição da distribuição binomial:

uma distribuição de frequência do número possível de resultados bem-sucedidos em um determinado número de tentativas em cada uma das quais existe a mesma probabilidade de sucesso.

Compare isso com a definição da distribuição de Poisson:

uma distribuição de frequência discreta que fornece a probabilidade de um número de eventos independentes que ocorrem em um tempo fixo .

A diferença substancial entre os 2 é o binômio em tentativas, Poisson está em um período t . Como o limite pode ocorrer intuitivamente?nt

Digamos que você precise continuar executando as tentativas de Bernoulli por toda a eternidade. Além disso, você executa por minuto. Por minuto, você conta cada sucesso. Então, por toda a eternidade, você está executando um processo B i n ( p , 30 ) a cada minuto. Durante 24 horas, você tem um B i n ( p , 43200 ) .n=30Bin(p,30)Bin(p,43200)

Ao se cansar, você é perguntado "quantos sucessos ocorreram entre as 18:00 e as 19:00?". Sua resposta pode ser , ou seja, você fornece os sucessos médios em uma hora. Isso parece muito com o parâmetro Poisson λ para mim.3060pλ


fonte
5

Questão 2)

M!N!(MN)!MNN!=M(M1)(MN+1)MN=1(11M)(1N1M)

Então, tomando o limite para N fixoN

limMM!N!(MN)!MNN!=limM1(11M)(1N1M)=1
Łukasz Grad
fonte
+1. Comecei olhando a aproximação de Stirling, mas comecei a correr em círculos. Sua abordagem é muito mais simples.
Eu não acho que é isso que o OP vai encontrar intuitiva ...
b Kjetil Halvorsen
@kjetilbhalvorsen Eu tentei usar a matemática mais simples possível, de forma intuitiva para os grandes temos M M - k para fixo k < < MMMMkk<<M
Łukasz Grad
1
@kjetilbhalvorsen Esta é uma resposta para Q2 (passo de derivação), não Q1 (explicação intuitiva)
Ben Bolker
@TemplateRex Hmm, mas acho que, ao provar a convergência pontual, só preciso provar isso para cada fixo , pois M vai para a infiidade, não é? Isso é ω Ω lim m X m ( ω ) X ( ω )NMωΩlimmXm(ω)X(ω)
Łukasz Grad
5

O problema é que a sua caracterização do Poisson como um caso limitante da distribuição binomial não está totalmente correta, como indicado .

O Poisson é um caso limitante do binômio quando: A segunda parte é importante. Se p permanecer fixo, a primeira condição implica que a taxa também aumentará sem limite.

MandMpλ.
p

O que a distribuição de Poisson assume é que os eventos são raros . O que queremos dizer com "raro" não é que a taxa de eventos seja pequena - de fato, um processo de Poisson pode ter uma intensidade muito alta mas sim que a probabilidade de um evento ocorrer a qualquer instante no tempo [ t , t + d t ) é muito pequeno. Isso contrasta com um modelo binomial em que a probabilidade p de um evento (por exemplo, "sucesso") é fixada para qualquer tentativa.λ[t,t+dt)p

Para ilustrar, suponha que modelemos uma série de ensaios independentes de Bernoulli, cada um com probabilidade de sucesso p , e examinamos o que acontece com a distribuição do número de sucessos X como M . Para qualquer N tão grande quanto desejamos, e não importa quão pequeno p seja, o número esperado de sucessos E [ X ] = M p > N para M > N / pMpXMNpE[X]=Mp>NM>N/p. Em outras palavras, por mais improvável que seja a probabilidade de sucesso, eventualmente você pode obter um número médio de sucessos tão grandes quanto você desejar, se executar muitas tentativas o suficiente. Então, (ou, apenas dizendo " M é grande") não é suficiente para justificar um modelo de Poisson para X .MMX

Não é difícil estabelecer algebricamente como um caso limitante de Pr [ X = x ] = ( M

Pr[X=x]=eλλxx!,x=0,1,2,
ajustando p = λ / M e deixando M . Outras respostas aqui abordaram a intuição por trás desse relacionamento e também forneceram orientações computacionais. Mas é importante que p = λ / M . Você não pode ignorar isso.
Pr[X=x]=(Mx)px(1p)Mx,x=0,1,2,,M
p=λ/MMp=λ/M
heropup
fonte
0

Só posso tentar responder em parte e trata-se da intuição da Questão 2, não de uma prova rigorosa.

O coeficiente binomial fornece o número de amostras de tamanho , de M , sem reposição e sem pedido.NM

Aqui, embora se torne tão grande que você pode aproximar o cenário como amostragem com substituição, nesse caso, você obtém amostras ordenadas por M N. Se você não se importa com a ordem dos N objetos escolhidos, isso reduz a M N / N ! porque esses N objetos podem ser ordenados em N ! maneiras.MMNNMN/N!NN!

PM.
fonte
-2

Balls falling through layers of pegs

Penso que este é o melhor exemplo que explica intuitivamente como a distribuição binomial converge para normal com um grande número de bolas. Aqui, cada bola tem a mesma probabilidade de cair em ambos os lados do pino em cada camada e todas as bolas devem enfrentar o mesmo número de pinos. Pode-se ver facilmente que, como o número de bolas aumenta muito, a distribuição de bolas em seções diferentes será semelhante à distribuição normal.

A minha resposta à sua pergunta 2 é igual à resposta dada por Lukasz.

samwise_the_wise
fonte
2
Esta não é realmente responder a pergunta, ele responde a uma outra questão ...
b Kjetil Halvorsen
Tentei explicar intuitivamente o que foi perguntado na pergunta 1. Você pode explicar por que você acha que não é uma resposta para isso?
21417 Samwell_the_wise #
1
Desculpe, entendi agora. Eu respondi uma pergunta completamente diferente. Foi mal.
21417 Samwell_the_wise #
1
Eu vejo uma versão altamente discreta de uma distribuição binomial. Por que deveria ser óbvio que a distribuição de bolas na parte inferior deste quincunce deve ser normal? Independentemente de quantas bolas você deixar cair nesta máquina, você ainda receberá uma distribuição de contagens em 13 caixas: isso não pode ser normal!
whuber