Em "Data Analysis" do DS Sivia, há uma derivação da distribuição de Poisson, da distribuição binomial.
Eles argumentam que a distribuição de Poisson é o caso limitante da distribuição binomial quando , onde é o número de tentativas.
Pergunta 1: Como esse argumento pode ser intuitivamente entendido?
Pergunta 2: Por que o limite grande- de igual a , Em que é o número de sucessos em ensaios? (Esta etapa é usada na derivação.)
binomial
poisson-distribution
combinatorics
intuition
probability-calculus
Ytsen de Boer
fonte
fonte
Respostas:
Vou tentar uma explicação intuitiva simples. Registre que para uma variável aleatória binomial , temos a expectativa é n p e a variação é n p ( 1 - p ) . Agora pense que X registra o número de eventos em um número muito grande n de tentativas, cada uma com uma probabilidade muito pequena , de modo que estamos muito próximos de (realmente ). Então temos say eX∼Bin(n,p) np np(1−p) X n p 1−p=1 ≈ np=λ np(1−p)≈np1=λ , portanto, a média e a variância são iguais a . Lembre-se então de que para uma variável aleatória distribuída de poisson, sempre temos média e variância iguais! Esse é pelo menos um argumento de plausibilidade para a aproximação de poisson, mas não uma prova.λ
Então olhe para ele de outro ponto de vista, o processo do ponto de poisson https://en.wikipedia.org/wiki/Poisson_point_process na linha real. Esta é a distribuição de pontos aleatórios na linha que obtemos se pontos aleatórios ocorrerem de acordo com as regras:
Então a distribuição do número de pontos em um determinado intervalo (não necessariamente curto) é Poisson (com o parâmetro proporcional ao comprimento). Agora, se dividirmos esse intervalo em muitos subintervalos igualmente curtos ( ), a probabilidade de dois ou mais pontos em um determinado subintervalo é essencialmente zero, de modo que esse número terá, para uma aproximação muito boa, uma distribuição de bernolli, isto é, , de modo que a soma de tudo isso será , portanto, uma boa aproximação da distribuição poisson do número de pontos nesse (longo) intervalo.n Bin ( 1 , p ) Bin ( n , p )λ n Bin(1,p) Bin(n,p)
Editar a partir de Ytsen de Boer (OP): a pergunta número 2 é respondida satisfatoriamente por @ Łukasz Grad.
fonte
Deixe-me fornecer uma heurística alternativa. Vou mostrar como aproximar o processo de Poisson como um binômio (e argumentar que a aproximação é melhor para muitos ensaios com baixa probabilidade). Portanto, a distribuição binomial deve tender à distribuição de Poisson.
Digamos que os eventos estejam acontecendo com uma taxa constante no tempo. Queremos saber a distribuição de quantos eventos ocorreram em um dia, sabendo que o número esperado de eventos éλ .
Bem, o número esperado de eventos por hora éλ/24 . Vamos fingir que isso significa que a probabilidade de um evento acontecer em uma determinada hora é λ/24 . [não está certo, mas é uma aproximação decente se λ/24≪1 basicamente se pudermos assumir que vários eventos não acontecem na mesma hora]. Então podemos aproximar a distribuição do número de eventos como um binômio com M=24 tentativas, cada uma com probabilidade de sucesso λ/24 .
Melhoramos a aproximação alternando nosso intervalo para minutos. Então ép=λ/1440 com M=1440 tentativas. Se λ estiver por perto, digamos 10, podemos estar bastante confiantes de que nenhum minuto teve dois eventos.
Claro que melhora se mudarmos para segundos. Agora, observamosM=86400 eventos, cada um com a pequena probabilidade λ/86400 .
Não importa quão grande o seuλ é, eu posso eventualmente escolher uma pequena o suficiente Δt tal que é muito provável que não há dois eventos acontecem no mesmo intervalo. Em seguida, a distribuição binomial correspondente a esse Δt vai ser um excelente jogo para a verdadeira distribuição de Poisson.
A única razão pela qual eles não são exatamente iguais é que há uma probabilidade diferente de zero de que dois eventos ocorram no mesmo intervalo de tempo. Porém, dado que existem apenas eventosλ e eles são distribuídos em um número de posições muito maior que λ , é improvável que dois deles se encontrem na mesma posição.
Ou, por outras palavras, a distribuição binomial tende para a distribuição de Poisson comoM→∞ se a probabilidade de sucesso é p=λ/M .
fonte
Questão 1
Lembre-se da definição da distribuição binomial:
Compare isso com a definição da distribuição de Poisson:
A diferença substancial entre os 2 é o binômio em tentativas, Poisson está em um período t . Como o limite pode ocorrer intuitivamente?n t
Digamos que você precise continuar executando as tentativas de Bernoulli por toda a eternidade. Além disso, você executa por minuto. Por minuto, você conta cada sucesso. Então, por toda a eternidade, você está executando um processo B i n ( p , 30 ) a cada minuto. Durante 24 horas, você tem um B i n ( p , 43200 ) .n=30 Bin(p,30) Bin(p,43200)
Ao se cansar, você é perguntado "quantos sucessos ocorreram entre as 18:00 e as 19:00?". Sua resposta pode ser , ou seja, você fornece os sucessos médios em uma hora. Isso parece muito com o parâmetro Poisson λ para mim.30∗60∗p λ
fonte
Questão 2)
Então, tomando o limite para N fixoN
fonte
O problema é que a sua caracterização do Poisson como um caso limitante da distribuição binomial não está totalmente correta, como indicado .
O Poisson é um caso limitante do binômio quando: A segunda parte é importante. Se p permanecer fixo, a primeira condição implica que a taxa também aumentará sem limite.
O que a distribuição de Poisson assume é que os eventos são raros . O que queremos dizer com "raro" não é que a taxa de eventos seja pequena - de fato, um processo de Poisson pode ter uma intensidade muito alta mas sim que a probabilidade de um evento ocorrer a qualquer instante no tempo [ t , t + d t ) é muito pequeno. Isso contrasta com um modelo binomial em que a probabilidade p de um evento (por exemplo, "sucesso") é fixada para qualquer tentativa.λ [t,t+dt) p
Para ilustrar, suponha que modelemos uma série de ensaios independentes de Bernoulli, cada um com probabilidade de sucesso p , e examinamos o que acontece com a distribuição do número de sucessos X como M → ∞ . Para qualquer N tão grande quanto desejamos, e não importa quão pequeno p seja, o número esperado de sucessos E [ X ] = M p > N para M > N / pM p X M→∞ N p E[X]=Mp>N M>N/p . Em outras palavras, por mais improvável que seja a probabilidade de sucesso, eventualmente você pode obter um número médio de sucessos tão grandes quanto você desejar, se executar muitas tentativas o suficiente. Então, (ou, apenas dizendo " M é grande") não é suficiente para justificar um modelo de Poisson para X .M→∞ M X
Não é difícil estabelecer algebricamente como um caso limitante de Pr [ X = x ] = ( M
fonte
Só posso tentar responder em parte e trata-se da intuição da Questão 2, não de uma prova rigorosa.
O coeficiente binomial fornece o número de amostras de tamanho , de M , sem reposição e sem pedido.N M
Aqui, embora se torne tão grande que você pode aproximar o cenário como amostragem com substituição, nesse caso, você obtém amostras ordenadas por M N. Se você não se importa com a ordem dos N objetos escolhidos, isso reduz a M N / N ! porque esses N objetos podem ser ordenados em N ! maneiras.M MN N MN/N! N N!
fonte
Penso que este é o melhor exemplo que explica intuitivamente como a distribuição binomial converge para normal com um grande número de bolas. Aqui, cada bola tem a mesma probabilidade de cair em ambos os lados do pino em cada camada e todas as bolas devem enfrentar o mesmo número de pinos. Pode-se ver facilmente que, como o número de bolas aumenta muito, a distribuição de bolas em seções diferentes será semelhante à distribuição normal.
A minha resposta à sua pergunta 2 é igual à resposta dada por Lukasz.
fonte