Estou tentando modelar dados de contagem em R que aparentemente estão sub-dispersos (parâmetro de dispersão ~ 0,40). Este é provavelmente por isso que um glm
com family = poisson
ou um binômio negativo ( glm.nb
modelo) não são significativas. Quando olho para as descrições dos meus dados, não tenho a inclinação típica dos dados de contagem e os resíduos nas minhas duas condições experimentais também são homogêneos.
Então, minhas perguntas são:
Eu tenho mesmo que usar análises de regressão especiais para meus dados de contagem, se meus dados de contagem não se comportarem realmente como dados de contagem? Às vezes, enfrento a não normalidade (geralmente devido à curtose), mas usei o método de bootstrap de percentil para comparar médias aparadas (Wilcox, 2012) para explicar a não normalidade. Os métodos para dados de contagem podem ser substituídos por qualquer método robusto sugerido por Wilcox e realizado no pacote WRS?
Se eu tiver que usar análises de regressão para dados de contagem, como contabilizo a sub-dispersão? A distribuição de Poisson e a distribuição binomial negativa assumem uma maior dispersão, de modo que não deve ser apropriado, certo? Eu estava pensando em aplicar a distribuição quase-Poisson , mas isso geralmente é recomendado para a dispersão excessiva. Eu li sobre modelos beta-binomiais que parecem ser responsáveis por super e sub-dispersão, estão disponíveis no
VGAM
pacote de R. Os autores, no entanto, parecem recomendar uma distribuição Poisson reduzida , mas não consigo encontrá-la no pacote. .
Alguém pode recomendar um procedimento para dados sub-dispersos e talvez fornecer algum código R de exemplo para ele?
Respostas:
A melhor maneira --- e padrão de lidar com dados Poisson sub-dispersos é usando um Poisson generalizado, ou talvez um modelo de obstáculos. Três modelos de contagem de parâmetros também podem ser usados para dados sub-dispersos; por exemplo, Faddy-Smith, Waring, Famoye, Conway-Maxwell e outros modelos de contagem generalizada. A única desvantagem disso é a interpretabilidade. Mas, para dados sub-dispersos gerais, deve-se usar o Poisson generalizado. É como um binômio negativo para dados superdispersos. Discuto isso detalhadamente em dois dos meus livros, Modeling Count Data (2014) e Negative Binomial Regression, 2ª edição, (2011), ambos da Cambridge University Press. Em R, o pacote VGAM permite regressão generalizada de Poisson (GP). Valores negativos do parâmetro dispersão indicam ajuste para sub-dispersão. Você pode usar o modelo GP também para dados super dispersos, mas geralmente o modelo NB é melhor. Quando se trata disso, é melhor determinar a causa da subdispersão e selecionar o modelo mais apropriado para lidar com isso.
fonte
Encontrei um Poisson pouco disperso uma vez que tinha a ver com a frequência com que as pessoas jogavam um jogo social. Aconteceu que isso se devia à extrema regularidade com que as pessoas brincavam às sextas-feiras. A remoção dos dados de sexta-feira me deu o esperado Poisson superdisperso. Talvez você tenha a opção de editar seus dados da mesma forma.
fonte
Há situações em que a subdispersão coalescem com inflação zero, o que é típico para crianças preferidas, contadas por indivíduos de ambos os sexos. Não encontrei uma maneira de capturar isso até o momento
fonte