Regressão logística: Bernoulli vs. variáveis ​​de resposta binomial

32

Desejo executar regressão logística com a seguinte resposta binomial e com X1 e X2 como meus preditores.

insira a descrição da imagem aqui

Eu posso apresentar os mesmos dados que as respostas de Bernoulli no seguinte formato.

insira a descrição da imagem aqui

As saídas de regressão logística para esses 2 conjuntos de dados são basicamente as mesmas. Os resíduos de desvio e AIC são diferentes. (A diferença entre o desvio nulo e o desvio residual é a mesma nos dois casos - 0,228.)

A seguir estão as saídas de regressão de R. Os conjuntos de dados são chamados binom.data e bern.data.

Aqui está a saída binomial.

Call:
glm(formula = cbind(Successes, Trials - Successes) ~ X1 + X2, 
    family = binomial, data = binom.data)

Deviance Residuals: 
[1]  0  0  0

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)  -2.9649    21.6072  -0.137    0.891
X1Yes        -0.1897     2.5290  -0.075    0.940
X2            0.3596     1.9094   0.188    0.851

(Dispersion parameter for binomial family taken to be 1)

Null deviance:  2.2846e-01  on 2  degrees of freedom
Residual deviance: -4.9328e-32  on 0  degrees of freedom
AIC: 11.473

Number of Fisher Scoring iterations: 4

Aqui está a saída de Bernoulli.

Call:
glm(formula = Success ~ X1 + X2, family = binomial, data = bern.data)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.6651  -1.3537   0.7585   0.9281   1.0108  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)  -2.9649    21.6072  -0.137    0.891
X1Yes        -0.1897     2.5290  -0.075    0.940
X2            0.3596     1.9094   0.188    0.851

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 15.276  on 11  degrees of freedom
Residual deviance: 15.048  on  9  degrees of freedom
AIC: 21.048

Number of Fisher Scoring iterations: 4

Minhas perguntas:

1) Vejo que as estimativas pontuais e os erros padrão entre as duas abordagens são equivalentes neste caso particular. Essa equivalência é verdadeira em geral?

2) Como a resposta para a pergunta nº 1 pode ser justificada matematicamente?

3) Por que os resíduos de desvio e a AIC são diferentes?

Um cientista
fonte

Respostas:

24

1) sim Você pode agregar / desagregar (?) Dados binomiais de indivíduos com as mesmas covariáveis. Isso decorre do fato de que a estatística suficiente para um modelo binomial é o número total de eventos para cada vetor covariável; e o Bernoulli é apenas um caso especial do binômio. Intuitivamente, cada estudo de Bernoulli que compõe um resultado binomial é independente; portanto, não deve haver diferença entre contá-los como um único resultado ou como ensaios individuais separados.

nx1,x2,,xnNi

YiBin(Ni,pi)
logit(pi)=k=1Kβkxik
embora mais tarde veremos que isso não é importante.

A probabilidade de log para este modelo é e maximizamos isso em relação a (nos termos de ) para obter nossas estimativas de parâmetros.

(β;Y)=i=1nlog(NiYi)+Yilog(pi)+(NiYi)log(1pi)
βpi

Agora, considere que, para cada , dividimos o resultado binomial em Bernoulli / resultados binários individuais, como você fez. Especificamente, crie Ou seja, o primeiro é 1s e o restante é 0s. Foi exatamente isso que você fez - mas você poderia igualmente ter feito o primeiro como 0s e o restante como 1s, ou qualquer outro pedido, certo?i=1,,nNi

Zi1,,ZiYi=1
Zi(Yi+1),,ZiNi=0
Yi(NiYi)

Seu segundo modelo diz que com o mesmo modelo de regressão para como acima. A probabilidade de log para este modelo é e, devido à maneira como definimos nossos s, isso pode ser simplificado para que deve parecer bastante familiar.

ZijBernoulli(pi)
pi
(β;Z)=i=1nj=1NiZijlog(pi)+(1Zij)log(1pi)
Zij
(β;Y)=i=1nYilog(pi)+(NiYi)log(1pi)

Para obter as estimativas no segundo modelo, maximizamos isso em relação a . A única diferença entre isso e a primeira probabilidade de log é o termo , que é constante em relação a , e portanto não afeta a maximização e obteremos as mesmas estimativas.βlog(NiYi)β

3) Cada observação tem um desvio residual. No modelo binomial, eles são onde é a probabilidade estimada do seu modelo. Observe que seu modelo binomial está saturado (0 graus residuais de liberdade) e possui um ajuste perfeito: para todas as observações, então para todos os .

Di=2[Yilog(Yi/Nip^i)+(NiYi)log(1Yi/Ni1p^i)]
p^ip^i=Yi/NiDi=0i

No modelo de Bernoulli, Além do fato de que agora você terá resíduos de desvio (em vez de como nos dados binomiais), cada um deles será ou dependendo de ou , e obviamente não são os mesmos que os acima. Mesmo se você somar estes sobre para obter uma soma dos resíduos de desvio para cada , você não terá o mesmo:

Dij=2[Zijlog(Zijp^i)+(1Zij)log(1Zij1p^i)]
i=1nNin
Dij=2log(p^i)
Dij=2log(1p^i)
Zij=10ji
Di=j=1NiDij=2[Yilog(1p^i)+(NiYi)log(11p^i)]

O fato de a AIC ser diferente (mas a mudança no desvio não é) volta ao termo constante que era a diferença entre as probabilidades logarítmicas dos dois modelos. Ao calcular o desvio, isso é cancelado porque é o mesmo em todos os modelos com base nos mesmos dados. O AIC é definido como e esse termo combinatório é a diferença entre os s:

AIC=2K2

AICBernoulliAICBinomial=2i=1nlog(NiYi)=9.575
Marca
fonte
Obrigado pela sua resposta muito detalhada, Mark! Desculpe o atraso na minha resposta - eu estava de férias. 3) Dado que os 2 modelos apresentam resultados diferentes para resíduos de desvio e AIC, qual é o correto ou melhor? a) Pelo que entendi, observações com um desvio residual superior a dois podem indicar falta de ajuste; portanto, os valores absolutos dos resíduos desviados são importantes. b) Como o AIC é usado para comparar o ajuste entre diferentes modelos, talvez não exista um AIC "correto". Eu apenas compararia os AICs de 2 modelos binomiais ou 2 modelos de Bernoulli.
Um cientista
a) Para os dados binários, o será> 2 se ( e ) ou ( e ). Portanto, mesmo que seu modelo ajuste perfeitamente os dados binomiais para o ésimo vetor covariável (por exemplo, , por exemplo), então os s que você arbitrariamente alocou como sendo 1 terá . Por esse motivo, acho que os resíduos de desvio fazem mais sentido com os dados binomiais. Além disso, o próprio desvio de dados binários não tem suas propriedades usuais ...DijZij=1p^i<e1=0.368Zij=0p^i>1e1=0.632iYi/Ni=p^i<0.368Yi ZijDij>2
Mark
1
b) Sim, comparar entre modelos só faz sentido quando os dados usados ​​para ajustar cada modelo são exatamente os mesmos. Então compare Bernoulli com Bernoulli ou binomial com binomial. AIC
Mark
Obrigado, Mark! Suas respostas pensadas e detalhadas são muito apreciadas!
Um cientista
0

Eu só quero fazer comentários sobre o último parágrafo: “O fato de a AIC ser diferente (mas a mudança no desvio não é) volta ao termo constante que foi a diferença entre as probabilidades logarítmicas dos dois modelos. Ao calcular a alteração no desvio, isso é cancelado porque é o mesmo em todos os modelos com base nos mesmos dados. "Infelizmente, isso não está correto para a alteração no desvio. O desvio não inclui o termo constante Ex (constante extra probabilidade de log para os dados binomiais). Portanto, a mudança no desvio não tem nada a ver com o termo constante EX. O desvio compara um determinado modelo ao modelo completo.O fato de que os desvios são diferentes de Bernoulli / binário e modelagem binomial, mas a mudança no desvio não é devido à diferença nos valores completos de probabilidade de log do modelo. Esses valores são cancelados no cálculo das alterações de desvio. Portanto, os modelos de regressão logística de Bernoulli e binomial produzem alterações idênticas de desvio, desde que as probabilidades previstas pij e pi sejam as mesmas. De fato, isso é verdade para o probit e outras funções de link.

Permita que lBm e lBf denotem os valores de probabilidade logarítmica de ajustar o modelo me o modelo completo f aos dados de Bernoulli. O desvio é então

    DB=2(lBf - lBm)=-2(lBm – lBf).

Embora o lBf seja zero para os dados binários, não simplificamos o banco de dados e o mantemos como está. O desvio da modelagem binomial com as mesmas covariáveis ​​é

    Db=2(lbf+Ex – (lbm+Ex))=2(lbf – lbm) = -2(lbm – lbf)

onde lbf + Ex e lbm + Ex são os valores de probabilidade logarítmica dos modelos full e m ajustados aos dados binomiais. O termo extra constante (Ex) desapareceu do lado direito do Db. Agora observe a mudança nos desvios do Modelo 1 para o Modelo 2. A partir da modelagem de Bernoulli, temos uma mudança no desvio de

    DBC=DB2-DB1=2(lBf – lBm2)-2(lBf – lBm1) =2(lBm1 – lBm2).

Da mesma forma, a mudança no desvio do ajuste binomial é

    DbC=DB2-DB1=2(lbf – lbm2)-2(lbf – lbm1) =2(lbm1 – lbm2).

Segue-se imediatamente que as alterações de desvio estão livres das contribuições de probabilidade de log dos modelos completos, lBf e lbf. Portanto, obteremos a mesma alteração no desvio, DBC = DbC, se lBm1 = lbm1 e lBm2 = lbm2. Sabemos que é o caso aqui e é por isso que estamos obtendo as mesmas alterações de desvio da modelagem binomial e de Bernoulli. A diferença entre lbf e lBf leva a diferentes desvios.

Saei
fonte
6
Seria possível editar a formatação da sua resposta? Infelizmente, nesta forma, não é muito legível. Recomendamos que você freie o texto nos parágrafos e adicione formatação às fórmulas. Também nem sempre é claro o que significam as abreviações usadas. TEX
Tim
Muito obrigado, Tim. Não estou familiarizado com a formatação TEX. Eu digitei originalmente o Word, mas não consegui copiar e colar. Separei as equações do texto.
Saei 06/04
Não tenho certeza se você interpretou mal esse parágrafo: eu disse "a AIC é diferente ( mas a mudança no desvio não é )", e o restante do parágrafo explica por que a AIC é diferente entre os dois modelos. Não afirmei que a mudança no desvio dependesse do termo constante. Na verdade, eu disse: " Ao calcular a mudança de desvio, este [o termo constante] é cancelada porque é o mesmo em todos os modelos com base nos mesmos dados "
Mark
O problema é que existe apenas um "termo constante" no texto e é o termo combinatório (coeficiente binomial). Quando você diz que "isto" é cancelado, isso implica que o termo constante seja incluído no desvio. A diferença entre os desvios dos modelos de Bernoulli e binomial é a contribuição do valor da probabilidade logarítmica lbf de todo o modelo. O lbf não varia de acordo com os diferentes modelos binomiais nos mesmos dados e é cancelado ao calcular a alteração no desvio.
Saei 07/04
Ah ok, entendo o que você quer dizer. Eu editei minha resposta de acordo, deixando na referência à mudança no desvio, porque o autor da pergunta a mencionou especificamente. A mudança no desvio é a mesma, porque o desvio não depende do termo constante.
Mark