Quando usar GLMs binomiais de Poisson vs. geométricos vs. negativos para dados de contagem?

21

Estou tentando fazer um layout para mim mesmo quando é apropriado usar qual tipo de regressão (geométrico, Poisson, binomial negativo) com dados de contagem, dentro da estrutura GLM (apenas 3 das 8 distribuições GLM são usadas para dados de contagem, embora a maioria do que Eu li centros em torno das distribuições binomiais negativas e de Poisson).

Quando usar GLMs binomiais de Poisson vs. geométricos vs. negativos para dados de contagem?


Até agora, tenho a seguinte lógica: São dados de contagem? Se sim, a média e a variação são desiguais? Se sim, regressão binomial negativa. Se não, regressão de Poisson. Existe inflação zero? Se sim, Poisson inflado zero ou binomial negativo inflado zero.

Questão 1 Parece não haver uma indicação clara de qual usar quando. Existe algo para informar essa decisão? Pelo que entendi, uma vez que você alterna para o ZIP, a variância média, sendo a mesma suposição, fica mais relaxada, tornando-a muito semelhante ao NB novamente.

Questão 2 Onde a família geométrica se encaixa nessa ou em que tipo de perguntas devo perguntar sobre os dados ao decidir se devo usar uma família geométrica em minha regressão?

Questão 3 Vejo pessoas trocando as distribuições binomiais negativas e de Poisson o tempo todo, mas não geométricas, então acho que há algo bem diferente sobre quando usá-lo. Se assim for, o que é?

PS: Eu criei um diagrama (provavelmente simplificado, a partir dos comentários) ( editável ) do meu entendimento atual se as pessoas quisessem comentar / ajustá-lo para discussão. Contar dados: árvore de decisão GLM

timothy.s.lau
fonte
Eu só estou familiarizado com a programação R, mas espero que isso ajude ... stats.stackexchange.com/questions/60643/…
RYO ENG Lian Hu
@RYOENG, vi isso e expus a diferença descrita na minha pergunta com a árvore lógica. Estou especialmente interessado em uma dist. Menos discutida, a saber, a dist geométrica.
timothy.s.lau
(ATUALIZAÇÃO) A resposta de @Nick Cox aqui: stats.stackexchange.com/questions/67547/when-to-use-gamma-glms parece capitular o sentimento que vi até agora pesquisando "É difícil definir exatamente quando usá-lo para além de uma resposta vazia de sempre que ele funciona melhor"
timothy.s.lau
@Glen_b boa captura, atualizei a lógica.
timothy.s.lau
Você provavelmente está seguro removendo o parágrafo sobre ser enganado por mods também.
Glen_b -Reinstala Monica

Respostas:

12

Tanto a distribuição de Poisson quanto a distribuição geométrica são casos especiais da distribuição binomial negativa (NB). Uma notação comum é que a variação do NB é onde é a expectativa e é responsável pela quantidade de (super) dispersão. Às vezes, também é usado . O modelo de Poisson tem , isto é, equidispersão, e o geométrico tem . μ q ct = 1 / q q = q = 1μ+1/θμ2μθα=1/θθ=θ=1

Portanto, em caso de dúvida entre esses três modelos, eu recomendaria estimar o NB: O pior caso é que você perde um pouco de eficiência ao estimar muitos parâmetros. Mas, é claro, também existem testes formais para avaliar se um determinado valor para (por exemplo, 1 ou ) é suficiente. Ou você pode usar critérios de informação etc.θ

Obviamente, também existem muitas outras distribuições de dados de contagem de um ou vários parâmetros (incluindo o composto Poisson que você mencionou) que às vezes podem ou não levar a ajustes significativamente melhores.

Quanto ao excesso de zeros: As duas estratégias padrão são usar uma distribuição de dados de contagem inflada a zero ou um modelo de barreira que consiste em um modelo binário igual ou superior a zero, mais um modelo de dados de contagem truncada a zero. Como você menciona excesso de zeros e superdispersão, pode ser confundido, mas muitas vezes sobredispersão considerável permanece mesmo após o ajuste do modelo para excesso de zeros. Novamente, em caso de dúvida, eu recomendaria o uso de um modelo de inflação zero ou obstáculo baseado em NBs pela mesma lógica acima.

Isenção de responsabilidade: Esta é uma visão geral muito breve e simples. Ao aplicar os modelos na prática, eu recomendaria consultar um livro sobre o assunto. Pessoalmente, gosto dos livros de dados de contagem de Winkelmann e de Cameron & Trivedi. Mas existem outros bons também. Para uma discussão baseada em R, você também pode gostar do nosso artigo em JSS ( http://www.jstatsoft.org/v27/i08/ ).

Achim Zeileis
fonte
4
μ+μ2>μ
3
μ
3
Como você pôde perceber pelos meus comentários anteriores: não sou fã de tais fluxogramas simplistas demais. Para escolher um bom modelo, é necessário entender as conexões entre os modelos e sua relação com a aplicação prática. Se você pode ou não estar interessado na geométrica, depende do caso de aplicação que você possui. Da mesma forma, para inflação zero vs. obstáculo (que você omitiu no seu gráfico). Finalmente, a ordem das perguntas não é necessariamente a mesma para todas as aplicações etc.
Achim Zeileis
2
Percebo que meu esboço parece um pouco simplificado. Mas para os estudantes de ciências, não é incomum começar com esquemas bastante simplistas, se você fez aulas de física, conhece a frequência com que eles mudam e quebram "regras" que você aprendeu anteriormente, que são a base de mais tarde. compreensão especializada e diferenciada. Então, pelo bem da aprendizagem, eu sou um estudante de pós-graduação, estava simplesmente tentando obter uma compreensão mais "correta" dos conceitos básicos que podem ser aprimorados mais tarde, por exemplo, obstáculos etc. Obrigado pelas referências BTW, vou investigar os livros didáticos você mencionou, bem como o seu papel.
timothy.s.lau
1
registro(μEu)=xEuβ