Estratégia para decidir o modelo apropriado para os dados da contagem

16

Qual é a estratégia apropriada para decidir qual modelo usar com os dados de contagem? Tenho dados de contagem que preciso modelar como modelo multinível e me foi recomendado (neste site) que a melhor maneira de fazer isso é através de bugs ou MCMCglmm. No entanto, ainda estou tentando aprender sobre estatísticas bayesianas e achei que deveria primeiro tentar ajustar meus dados como modelos lineares generalizados e ignorar a estrutura aninhada dos dados (para que eu possa ter uma idéia vaga do que esperar).

Aproximadamente 70% dos dados são 0 e a razão de variação para a média é 33. Portanto, os dados são bastante dispersos.

Depois de tentar várias opções diferentes (incluindo modelo de poisson, binomial negativo, quase e zero inflado), vejo pouca consistência nos resultados (variando de tudo é significativo a nada é significativo).

Como posso tomar uma decisão informada sobre qual tipo de modelo escolher com base na inflação 0 e na dispersão excessiva? Por exemplo, como posso inferir que quase-poisson é mais apropriado que o binômio negativo (ou vice-versa) e como posso saber que o uso de um ou outro lidou adequadamente (ou não) com o excesso de zeros? Da mesma forma, como avalio que não há mais dispersão excessiva se um modelo inflado com zero for usado? ou como devo decidir entre um poisson inflado zero e um binômio negativo inflado zero?

George Michaelides
fonte

Respostas:

9

Você sempre pode comparar modelos de contagem observando suas previsões (de preferência em um conjunto de espera). J. Scott Long discute isso graficamente (plotando os valores previstos em relação aos valores reais). Seu livro aqui descreve em detalhes, mas você também pode ver o 6.4 deste documento .

Você pode comparar modelos usando AIC ou BIC e também existe um teste chamado teste de Voung, com o qual eu não estou muito familiarizado, mas que pode comparar zero inflado a modelos não aninhados. Aqui está um artigo da Sas descrevendo brevemente na página 10 para você começar. Também é implementado no lançamento R

B_Miner
fonte
Obrigado pelo conselho. Definitivamente vou tentar examinar as previsões antes de decidir sobre o modelo
George Michaelides
5

Algumas coisas a acrescentar ao que B_Miner disse:

1) Você escreveu que os modelos variavam de "tudo significativo" a "nada significativo", mas essa não é uma boa maneira de comparar modelos. Veja, em vez disso, os valores previstos (como B_miner sugeriu) e os tamanhos dos efeitos.

2) Se 70% dos dados são 0, não consigo imaginar que um modelo sem inflação 0 seja apropriado.

3) Mesmo que você não queira ficar bayesiano, pode usar GLMMs no SAS (PROC GLIMMIX ou NLMIXED) e no R (vários pacotes). Ignorar a natureza aninhada pode estragar tudo.

4) Em geral, decidir qual modelo é melhor é uma arte, não uma ciência. Existem estatísticas para usar, mas são um guia para o julgamento. Apenas olhando o que você escreveu, eu diria que um modelo ZINB parece certo

Peter Flom - Restabelece Monica
fonte
A intenção é que, eventualmente, tente modelar isso usando bayesiano, mas estava tentando entender como posso tomar uma decisão antes de ajustar os modelos. Se houver uma possibilidade de que ignorar a natureza aninhada dos dados atrapalhe as coisas, tentarei primeiro os GLMMs. O único pacote para R que eu sei que pode executar o ZINB multinível é o glmmADMB. Você recomendaria outros pacotes?
George Michaelides
4

Meu entendimento é que distribuições infladas com zero devem ser usadas quando houver uma justificativa para certos itens produzirem contagens de zeros versus qualquer outra contagem. Em outras palavras, uma distribuição inflada a zero deve ser usada se os zeros forem produzidos por um processo separado daquele que produz o outro conta. Se você não tem justificativa para isso, dada a sobredispersão em sua amostra, sugiro usar uma distribuição binomial negativa porque representa com precisão a abundância de zeros e representa heterogeneidade não observada ao estimar livremente esse parâmetro. Como mencionado acima, o livro de Scott Long é uma ótima referência.

Matt
fonte
Obrigado pela sua resposta. Na verdade, comecei a pensar se itens diferentes poderiam produzir os 0s em comparação com qualquer outra contagem e, na verdade, acho que existem algumas das minhas variáveis ​​que explicariam apenas 0s versus qualquer outra contagem. Então provavelmente eu deveria pelo menos tentar o ZINB primeiro para ver se minhas variáveis ​​funcionam da maneira que eu esperaria que elas funcionassem.
George Michaelides
3

absolutamente de acordo com o que Matt disse, primeiro você deve pensar no histórico dos dados ... Não faz sentido ajustar os modelos ZI, quando não há gatilhos geradores de zero na população! A vantagem dos modelos NB é que eles podem exibir heterogeneidade não observada em uma variável aleatória distribuída gama. Tecnicamente: As principais razões para a super-dispersão são a heterogeneidade inobservável e a inflação zero. Não acredito que seu ajuste seja ruim. Para obter a qualidade do ajuste, você deve sempre comparar o Desvio com os graus de liberdade do seu modelo. Se o desvio D for maior que n- (p + 1) (este é df), você deve procurar um modelo melhor. Embora na maioria dos casos não haja modelos melhores que o ZINB para se livrar da super-dispersão.

se você quiser montar um ZINB com R, obter o pacote pscle tentar usar o comando zeroinfl(<model>, dist=negative). Para mais informações, consulte ?zeroinflapós carregar o pacote necessário!

MarkDollar
fonte