Qual é a estratégia apropriada para decidir qual modelo usar com os dados de contagem? Tenho dados de contagem que preciso modelar como modelo multinível e me foi recomendado (neste site) que a melhor maneira de fazer isso é através de bugs ou MCMCglmm. No entanto, ainda estou tentando aprender sobre estatísticas bayesianas e achei que deveria primeiro tentar ajustar meus dados como modelos lineares generalizados e ignorar a estrutura aninhada dos dados (para que eu possa ter uma idéia vaga do que esperar).
Aproximadamente 70% dos dados são 0 e a razão de variação para a média é 33. Portanto, os dados são bastante dispersos.
Depois de tentar várias opções diferentes (incluindo modelo de poisson, binomial negativo, quase e zero inflado), vejo pouca consistência nos resultados (variando de tudo é significativo a nada é significativo).
Como posso tomar uma decisão informada sobre qual tipo de modelo escolher com base na inflação 0 e na dispersão excessiva? Por exemplo, como posso inferir que quase-poisson é mais apropriado que o binômio negativo (ou vice-versa) e como posso saber que o uso de um ou outro lidou adequadamente (ou não) com o excesso de zeros? Da mesma forma, como avalio que não há mais dispersão excessiva se um modelo inflado com zero for usado? ou como devo decidir entre um poisson inflado zero e um binômio negativo inflado zero?
fonte
Algumas coisas a acrescentar ao que B_Miner disse:
1) Você escreveu que os modelos variavam de "tudo significativo" a "nada significativo", mas essa não é uma boa maneira de comparar modelos. Veja, em vez disso, os valores previstos (como B_miner sugeriu) e os tamanhos dos efeitos.
2) Se 70% dos dados são 0, não consigo imaginar que um modelo sem inflação 0 seja apropriado.
3) Mesmo que você não queira ficar bayesiano, pode usar GLMMs no SAS (PROC GLIMMIX ou NLMIXED) e no R (vários pacotes). Ignorar a natureza aninhada pode estragar tudo.
4) Em geral, decidir qual modelo é melhor é uma arte, não uma ciência. Existem estatísticas para usar, mas são um guia para o julgamento. Apenas olhando o que você escreveu, eu diria que um modelo ZINB parece certo
fonte
Meu entendimento é que distribuições infladas com zero devem ser usadas quando houver uma justificativa para certos itens produzirem contagens de zeros versus qualquer outra contagem. Em outras palavras, uma distribuição inflada a zero deve ser usada se os zeros forem produzidos por um processo separado daquele que produz o outro conta. Se você não tem justificativa para isso, dada a sobredispersão em sua amostra, sugiro usar uma distribuição binomial negativa porque representa com precisão a abundância de zeros e representa heterogeneidade não observada ao estimar livremente esse parâmetro. Como mencionado acima, o livro de Scott Long é uma ótima referência.
fonte
absolutamente de acordo com o que Matt disse, primeiro você deve pensar no histórico dos dados ... Não faz sentido ajustar os modelos ZI, quando não há gatilhos geradores de zero na população! A vantagem dos modelos NB é que eles podem exibir heterogeneidade não observada em uma variável aleatória distribuída gama. Tecnicamente: As principais razões para a super-dispersão são a heterogeneidade inobservável e a inflação zero. Não acredito que seu ajuste seja ruim. Para obter a qualidade do ajuste, você deve sempre comparar o Desvio com os graus de liberdade do seu modelo. Se o desvio D for maior que n- (p + 1) (este é df), você deve procurar um modelo melhor. Embora na maioria dos casos não haja modelos melhores que o ZINB para se livrar da super-dispersão.
se você quiser montar um ZINB com R, obter o pacote
pscl
e tentar usar o comandozeroinfl(<model>, dist=negative)
. Para mais informações, consulte?zeroinfl
após carregar o pacote necessário!fonte