Estou tentando fazer um layout para mim mesmo quando é apropriado usar qual tipo de regressão (geométrico, Poisson, binomial negativo) com dados de contagem, dentro da estrutura GLM (apenas 3 das 8 distribuições GLM são usadas para dados de contagem, embora a maioria do que Eu li centros em torno das distribuições binomiais negativas e de Poisson).
Quando usar GLMs binomiais de Poisson vs. geométricos vs. negativos para dados de contagem?
Até agora, tenho a seguinte lógica: São dados de contagem? Se sim, a média e a variação são desiguais? Se sim, regressão binomial negativa. Se não, regressão de Poisson. Existe inflação zero? Se sim, Poisson inflado zero ou binomial negativo inflado zero.
Questão 1 Parece não haver uma indicação clara de qual usar quando. Existe algo para informar essa decisão? Pelo que entendi, uma vez que você alterna para o ZIP, a variância média, sendo a mesma suposição, fica mais relaxada, tornando-a muito semelhante ao NB novamente.
Questão 2 Onde a família geométrica se encaixa nessa ou em que tipo de perguntas devo perguntar sobre os dados ao decidir se devo usar uma família geométrica em minha regressão?
Questão 3 Vejo pessoas trocando as distribuições binomiais negativas e de Poisson o tempo todo, mas não geométricas, então acho que há algo bem diferente sobre quando usá-lo. Se assim for, o que é?
PS: Eu criei um diagrama (provavelmente simplificado, a partir dos comentários) ( editável ) do meu entendimento atual se as pessoas quisessem comentar / ajustá-lo para discussão.
fonte
Respostas:
Tanto a distribuição de Poisson quanto a distribuição geométrica são casos especiais da distribuição binomial negativa (NB). Uma notação comum é que a variação do NB é onde é a expectativa e é responsável pela quantidade de (super) dispersão. Às vezes, também é usado . O modelo de Poisson tem , isto é, equidispersão, e o geométrico tem . μ q ct = 1 / q q = ∞ q = 1μ + 1 / θ ⋅ μ2 μ θ α = 1 / θ θ = ∞ θ = 1
Portanto, em caso de dúvida entre esses três modelos, eu recomendaria estimar o NB: O pior caso é que você perde um pouco de eficiência ao estimar muitos parâmetros. Mas, é claro, também existem testes formais para avaliar se um determinado valor para (por exemplo, 1 ou ) é suficiente. Ou você pode usar critérios de informação etc.∞θ ∞
Obviamente, também existem muitas outras distribuições de dados de contagem de um ou vários parâmetros (incluindo o composto Poisson que você mencionou) que às vezes podem ou não levar a ajustes significativamente melhores.
Quanto ao excesso de zeros: As duas estratégias padrão são usar uma distribuição de dados de contagem inflada a zero ou um modelo de barreira que consiste em um modelo binário igual ou superior a zero, mais um modelo de dados de contagem truncada a zero. Como você menciona excesso de zeros e superdispersão, pode ser confundido, mas muitas vezes sobredispersão considerável permanece mesmo após o ajuste do modelo para excesso de zeros. Novamente, em caso de dúvida, eu recomendaria o uso de um modelo de inflação zero ou obstáculo baseado em NBs pela mesma lógica acima.
Isenção de responsabilidade: Esta é uma visão geral muito breve e simples. Ao aplicar os modelos na prática, eu recomendaria consultar um livro sobre o assunto. Pessoalmente, gosto dos livros de dados de contagem de Winkelmann e de Cameron & Trivedi. Mas existem outros bons também. Para uma discussão baseada em R, você também pode gostar do nosso artigo em JSS ( http://www.jstatsoft.org/v27/i08/ ).
fonte