O que é distribuição quase binomial (no contexto do GLM)?

30

Espero que alguém possa fornecer uma visão geral intuitiva do que é distribuição quase-binomial e o que ela faz. Estou particularmente interessado nestes pontos:

  1. Como o quasibinomial difere da distribuição binomial.

  2. Quando a variável de resposta é uma proporção (os valores de exemplo incluem 0,23, 0,11, 0,78, 0,98), um modelo quasibinomial será executado em R, mas um modelo binomial não.

  3. Por que modelos quase-binomiais devem ser usados ​​quando uma variável de resposta TRUE / FALSE está superdispersa.

luciano
fonte

Respostas:

20
  1. A diferença entre a distribuição binomial e quase-binomial pode ser vista em suas funções de densidade de probabilidade (pdf), que caracterizam essas distribuições.

    Binomial pdf:

    P(X=k)=(nk)pk(1 1-p)n-k

    PDF quase binomial:

    P(X=k)=(nk)p(p+kϕ)k-1 1(1 1-p-kϕ)n-k

    A distribuição quase binomial, embora semelhante à distribuição binomial, possui um parâmetro extra (limitado a | ϕ |min { p / n , ( 1 - p ) / n } ) que tenta descrever variações adicionais nos dados que não pode ser explicado apenas por uma distribuição binomial.ϕ|ϕ|min{p/n,(1 1-p)/n}

    (Observe que a média da distribuição quase-binomial é em vez dep.)pEu=0 0nn!ϕEu(n-k)!p

  2. Eu não tenho certeza disso, talvez a função glm em R adicione pesos no modo quase-binomial para explicar isso?

  3. O objetivo do parâmetro extra é estimar uma variação extra nos dados. Todo modelo linear generalizado (GLM) faz uma suposição distributiva para o resultado / resposta e maximiza a probabilidade dos dados com base nessa distribuição. É uma escolha que o analista faz e, se você sentir que precisa levar em consideração mais variações em seus dados, poderá escolher a distorção quase binomial para modelar a resposta para o seu glm. Uma ótima maneira de testar se precisamos ajustar um modelo quase binomial em vez de um binomial é ajustar um modelo quase binomial e testar para ver se o parâmetro é 0.ϕϕ

Alejandro Ochoa
fonte
2
Excelente Alejandro, agora como posso testar se o parâmetro is é 0?
1113 Juanchi
2
Observe que em R com glm.fit, binomiale quasibinomialsão exactamente os mesmos, excepto que quasibinomial(1) remove a verificação de número inteiro, e (2) retorna um AIC de NA. Veja esta resposta para mais detalhes.
miguelmorin 21/03
-1 Esse tipo de distribuição "quase binomial" parece não ter nenhuma relação com as probabilidades quase binomiais no contexto de glms, portanto é difícil ver por que houve tantos votos positivos.
Jarle Tufto 26/09
14

ϕ

Existe uma distribuição que se encaixa nessa especificação (a óbvia - um binômio em escala), mas esse não é necessariamente o objetivo quando um modelo quase binomial é ajustado; se você estiver se ajustando a dados que ainda estão entre 0 e 1, não pode ser binomial dimensionado.

ϕ

Quando a variável de resposta é uma proporção (os valores de exemplo incluem 0,23, 0,11, 078, 0,98), um modelo quasibinomial será executado em R, mas um modelo binomial não será

Para minha lembrança, um modelo binomial pode ser executado em R com proporções *, mas você precisa configurá-lo corretamente.

* Existem três maneiras distintas de fornecer dados binomiais ao R que eu conheço. Tenho certeza de que é um.

Glen_b -Reinstate Monica
fonte
Como isso está relacionado à estimativa de quase-probabilidade?
tim.farkas
2
+1 (mas eu adoraria ver uma resposta mais abrangente!). As três maneiras de configurar o GLM binomial com proporções são provavelmente as seguintes: stats.stackexchange.com/a/26779/28666 ? Um link pode ser útil. Além disso, como o que você disse sobre "quase -ibinomial" não ser realmente uma distribuição se relaciona com a segunda resposta neste tópico?
Ameba diz Reinstate Monica
11
@amoeba, você pode escrever uma distribuição para ele, como foi declarado na minha resposta (um binômio em escala), mas que não pode ser uma distribuição para dados de contagem (o quasibinomial não está em todos os números inteiros, a menos que o parâmetro de dispersão seja 1) nem para dados contínuos ( é discreto!). As pessoas geralmente o usam para dados de contagem por causa de sua estrutura de variância (mas, nesse caso, não existe essa distribuição na família exponencial)
Glen_b -Reinstate Monica