Modelagem paramétrica de variância dos dados de contagem

12

Estou procurando modelar alguns dados, mas não tenho certeza de que tipo de modelo posso usar. Tenho dados de contagem e quero um modelo que forneça estimativas paramétricas da média e da variância dos dados. Ou seja, tenho vários fatores preditivos e quero determinar se algum deles influencia a variação (não apenas a média do grupo).

Eu sei que a regressão de Poisson não funcionará porque a variação é igual à média; essa suposição não é válida no meu caso, então eu sei que há superdispersão. No entanto, um modelo binomial negativo gera apenas um único parâmetro de superdispersão, não aquele que é uma função dos preditores no modelo. Que modelo pode fazer isso?

Além disso, seria apreciada uma referência a um livro ou artigo que discuta o modelo e / ou um pacote R que implemente o modelo.

Brian Diggs
fonte
1
Como você sabe que há superdispersão sem primeiro fazer a regressão de Poisson? Afinal, comparar a variação dos valores brutos (resposta) com a média não é relevante: o que importa é a qualidade do ajuste do modelo de Poisson (este é o análogo da avaliação da distribuição de resíduos em um modelo linear em comparação à avaliação a distribuição da variável de resposta). Outra maneira de colocar isso é que o vínculo entre as variáveis ​​independentes e a resposta pode criar a aparência de sobredispersão, mesmo em um modelo de Poisson lindamente preciso.
whuber
2
@whuber Esse é um ponto justo. Para um único preditor categórico, observar a variação e a média dos subgrupos seria suficiente para detectar superdispersão, mas para uma regressão multivariada de Poisson, não é. Por uma questão de argumento, vamos supor que uma regressão binomal de Poisson e negativa foi feita e o binômio negativo mostra um melhor ajuste via comparação do modelo anova. Isso deve indicar superdispersão. Dado isso, como a variação / super-dispersão pode ser modelada parametricamente, e não como uma constante?
Brian Diggs
1
Acho que há um capítulo em McCullagh e Nelder, modelos lineares generalizados, 2ª edição , que aborda isso (mas minha cópia está em funcionamento) ... não haverá uma probabilidade real, mas você pode usar quase-probabilidade e para que pode ser o título do capítulo. Você aplica mínimos quadrados ponderados iterativamente, mesmo que não exista um modelo de probabilidade correspondente.
Karl
O capítulo 10 de McCullagh e Nelder discute a modelagem conjunta de média e dispersão, isto é, parametrizando a média e a variância. A quase-probabilidade estendida é a ferramenta principal, mas em algumas situações pode haver preocupações com esse método
Guest guest

Respostas:

9

Você pode modelar o próprio parâmetro de dispersão binomial negativa como uma função de variáveis ​​e parâmetros usando o pacote gamlss em R. Fornecemos um trecho de uma introdução a ele:

Por que devo usar o GAMLSS

Se sua variável de resposta for contar dados (discretos), é muito provável que a distribuição Poisson não se ajuste bem. O GAMLSS fornece uma variedade de distribuições discretas (incluindo o binômio negativo) que você pode experimentar. O parâmetro de dispersão também pode ser modelado em função de variáveis ​​explicativas.

O site www.gamlss.org possui documentação e links para vários documentos sobre as abordagens usadas no pacote.

jbowman
fonte
Ambas as respostas são úteis e fornecem boas referências. Estou concedendo a recompensa a este porque (a) precedeu o outro por quatro minutos e (b) a solução gamlss é nova para mim (eu estou familiarizado com o nbreg). Mas vamos ao @timbp por fornecer uma boa resposta; Espero que você continue contribuindo para o nosso site.
whuber
2
@ Whuber, eu também estava dividido quanto ao que aceitar como "a" resposta, porque ambos foram muito úteis. Eu fui com este porque incluía uma referência de pacote R que eu posso usar; a referência do livro na outra resposta foi boa leitura e não deve ser descontada. Obrigado por oferecer a recompensa que levou a essas duas boas respostas.
quer
9

Stata fornece o comando -gnbreg-, que permite modelar o parâmetro de dispersão. Você pode visualizar a ajuda do Stata para o comando em http://www.stata.com/help.cgi?nbreg

Stata chama isso de modelo binomial negativo generalizado. Joseph Hilbe discute isso em seu livro "Regressão binomial negativa", seção 10.4, como "NB-H: Regressão binomial negativa heterogênea".

timbp
fonte