Sempre me perguntei quão boa é a distribuição de Poisson para os eventos que observamos na realidade. Quase sempre o vi ser usado para modelar a ocorrência de eventos. (Por exemplo, chegada de carros em uma garagem ou o número ou mensagens enviadas / recebidas pelos computadores hospedados em uma rede etc.)
Geralmente modelamos esses eventos pela distribuição de Poisson. A distribuição é apenas uma boa primeira aproximação de como as coisas acontecem na realidade? Se eu observar o número de carros / dia ou mensagens / dia nos dois exemplos acima e aqueles que são produzidos 'escolhendo na distribuição', quanto eles diferem? Quão boa é uma aproximação de Poisson? (É uma aproximação?) Qual é a 'mágica' por trás de Poisson de que ela simplesmente acerta (falando intuitivamente :)?
fonte
Respostas:
Um exemplo pelo qual posso falar é sobre as vendas em supermercado de bens de consumo embalados (CPG). Esses também são eventos de contagem - o supermercado pode vender 0 unidades por dia, ou 1 ou 2 e assim por diante, de modo que a distribuição de Poisson parece ser um bom primeiro ajuste.
No entanto, a distribuição binomial subjacente @PeterEllis notes não se mantém. Sim, podemos modelar o número de clientes com um binômio ... mas alguns clientes compram 1 unidade, outros compram 2 unidades e outros carregam suas despensas e compram 10 unidades.
O resultado geralmente será superdisperso, de modo que uma distribuição binomial negativa se encaixe muito melhor do que uma distribuição de Poisson. (Ocasionalmente, podemos até ver uma falta de dispersão para itens em movimento muito rápido, como leite).
fonte
Se as coisas contadas são independentes uma da outra e a taxa é constante (ou segue um modelo como na regressão de poisson), a distribuição de Poisson geralmente se mantém muito bem. Exemplos como carros que chegam a uma garagem tendem a funcionar razoavelmente bem (durante períodos de tempo em que a taxa é razoavelmente constante, incluindo a hora do rush e o meio da noite para uma garagem frequentada por 9 a 5 trabalhadores não funcionaria bem). A que horas você chega na garagem terá pouco ou influenciará a que horas eu chego. Existem exceções, porém, no fato de que, se duas pessoas combinam de se encontrar em um determinado momento, é provável que elas cheguem mais perto, se uma seguir a outra, elas estarão ainda mais próximas. Também coisas como um sinal de trânsito próximo podem causar aglomerações nas chegadas que não coincidiriam com um Poisson.
Se você deseja comparar um conjunto de dados específico para ver se o Poisson é uma boa correspondência, use um rootograma suspenso .
fonte
Como @Stephan diz, o Poisson direto pode não ter variação suficiente para ser um bom modelo de medições inteiras reais não negativas governadas por uma função de risco. Portanto, freqüentemente é usado o binômio negativo, que possui um parâmetro adicional determina a sobre-dispersão. Achei útil parametrizar com porque, quando a sobre-dispersão aproxima de 0, o que significa que o binômio negativo se aproxima de Poisson, o binômio negativo se torna difícil de calcular.β = ln ( α ) αα>0 β=ln(α) α
Outra maneira de aumentar a dispersão é a inflação zero, que pode ser aplicada ao Poisson ou ao binômio negativo. Para usar isso, em cada momento da medição, primeiro realize um teste de Bernoulli (jogue uma moeda). Se a moeda é "cara", a medida é 0. Caso contrário, a medida é retirada da distribuição binomial de Poisson ou negativa.
fonte
Vi que, se os eventos acabam sendo regulares, o modelo de Poisson superestima a variação (lógica e óbvia), enquanto que, se os eventos acabam sendo agrupados, o modelo de Poisson subestima a variação. A distribuição de Poisson é gerada a partir de um processo aleatório de pontos de Poisson.
Meu livro antigo recomenda Cox, DR e Miller, HD (1965) A teoria dos processos estocásticos pub. Wiley para outras leituras. No livro introdutório, é derivada uma equação diferencial de primeira ordem para um processo tão aleatório, que é resolvido para dar a probabilidade de não observar eventos no tempo , onde é o taxa de eventos é tempo; então, considerando etc. a fórmula geral de Poisson é derivada por inspeção. C. Chatfield Statistics for technology: um curso de estatística aplicada , 2ª Ed. 1978, pub. Chapman e Hall: veja as páginas 70-75.t P(0,t)=e−at a t P(1,t),P(2,t),
Esses dois exemplos violam o requisito de aleatoriedade subjacente. Se os eventos são mais ou menos aleatórios, o modelo de Poisson é um modelo justo. Os carros que chegam a um movimentado estacionamento no centro da cidade podem ser um exemplo de um conjunto de dados em cluster, devido a 9 a 5 usuários, talvez?
fonte