Modelando uma distribuição Poisson com superdispersão

15

Eu tenho um conjunto de dados que eu esperaria seguir uma distribuição de Poisson, mas ele é superdisperso em cerca de 3 vezes. No momento, estou modelando essa superdispersão usando algo como o código a seguir em R.

## assuming a median value of 1500
med = 1500
rawdist = rpois(1000000,med)
oDdist = rawDist + ((rawDist-med)*3)

Visualmente, isso parece se encaixar muito bem nos meus dados empíricos. Se eu estou feliz com o ajuste, há alguma razão para eu estar fazendo algo mais complexo, como usar uma distribuição binomial negativa, como descrito aqui ? (Se sim, qualquer sugestão ou link sobre isso seria muito apreciada).

Ah, e estou ciente de que isso cria uma distribuição ligeiramente irregular (devido à multiplicação por três), mas isso não deve importar para o meu aplicativo.


Atualização: Para quem procura e encontra essa pergunta, aqui está uma função R simples para modelar um poisson superdisperso usando uma distribuição binomial negativa. Defina d para a razão média / variância desejada:

rpois.od<-function (n, lambda,d=1) {
  if (d==1)
    rpois(n, lambda)
  else
     rnbinom(n, size=(lambda/(d-1)), mu=lambda)
}

(através da lista de discussão R: https://stat.ethz.ch/pipermail/r-help/2002-June/022425.html )

chrisamiller
fonte

Respostas:

11

para poisson superdisperso, use o binomial negativo, que permite parametrizar a variação em função da média com precisão. rnbinom (), etc. em R.

Cyrus S
fonte
1
Por que binômio negativo e não um modelo misto com efeito aleatório no nível de observação? Esta não é uma pergunta retórica. Este é um "eu não entendo qual deles devo preferir". questão. Além disso, e se eu tiver uma situação de medidas repetidas? Quando meus dados são contínuos, usarei um modelo misto linear generalizado. A distribuição Gamma geralmente funciona bem com dados biológicos contínuos, e o modelo misto lida com o elemento de medidas repetidas. Mas o que se faz se houver sobredispersado dados repetidos de contagem de medidas?
Bryan
Uma razão pela qual o modelo binomial negativo reparameterizado é popular entre os dados de poisson super-dispersos é b / c, modela a variância em função da média (igual à do poisson) com um parâmetro de super-dispersão para modelar a variância "extra". Consulte a página 487 aqui para obter uma fórmula rápida: worldscientific.com/doi/pdf/10.1142/9789813235533_0044 e a página da wikipedia para obter uma explicação sobre a reparameterização: en.wikipedia.org/wiki/Negative_binomial_distribution
Samir Rachid Zaim em
4

Se o seu valor médio para o Poisson for 1500, você estará muito perto de uma distribuição normal; você pode tentar usar isso como uma aproximação e depois modelar a média e a variação separadamente.

Rico
fonte
Isso é apenas um exemplo - pode ter uma mediana muito menor, da ordem de 200 (depende de como particiono os dados). Isso impediria o uso de uma distribuição normal, certo?
Chrisamiller
1
A aproximação normal à distribuição de Poisson é bastante robusta, a diferença entre os CDFs é limitada por algo como 0,75 / sqrt (lambda), se bem me lembro. Eu não ficaria muito preocupado em usar lambda = 200, mas se você é mais avesso a riscos, definitivamente vá com o binômio negativo.
19610 Rich