Desejo executar regressão logística com a seguinte resposta binomial e com e como meus preditores.
Eu posso apresentar os mesmos dados que as respostas de Bernoulli no seguinte formato.
As saídas de regressão logística para esses 2 conjuntos de dados são basicamente as mesmas. Os resíduos de desvio e AIC são diferentes. (A diferença entre o desvio nulo e o desvio residual é a mesma nos dois casos - 0,228.)
A seguir estão as saídas de regressão de R. Os conjuntos de dados são chamados binom.data e bern.data.
Aqui está a saída binomial.
Call:
glm(formula = cbind(Successes, Trials - Successes) ~ X1 + X2,
family = binomial, data = binom.data)
Deviance Residuals:
[1] 0 0 0
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.9649 21.6072 -0.137 0.891
X1Yes -0.1897 2.5290 -0.075 0.940
X2 0.3596 1.9094 0.188 0.851
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 2.2846e-01 on 2 degrees of freedom
Residual deviance: -4.9328e-32 on 0 degrees of freedom
AIC: 11.473
Number of Fisher Scoring iterations: 4
Aqui está a saída de Bernoulli.
Call:
glm(formula = Success ~ X1 + X2, family = binomial, data = bern.data)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.6651 -1.3537 0.7585 0.9281 1.0108
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.9649 21.6072 -0.137 0.891
X1Yes -0.1897 2.5290 -0.075 0.940
X2 0.3596 1.9094 0.188 0.851
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 15.276 on 11 degrees of freedom
Residual deviance: 15.048 on 9 degrees of freedom
AIC: 21.048
Number of Fisher Scoring iterations: 4
Minhas perguntas:
1) Vejo que as estimativas pontuais e os erros padrão entre as duas abordagens são equivalentes neste caso particular. Essa equivalência é verdadeira em geral?
2) Como a resposta para a pergunta nº 1 pode ser justificada matematicamente?
3) Por que os resíduos de desvio e a AIC são diferentes?
Eu só quero fazer comentários sobre o último parágrafo: “O fato de a AIC ser diferente (mas a mudança no desvio não é) volta ao termo constante que foi a diferença entre as probabilidades logarítmicas dos dois modelos. Ao calcular a alteração no desvio, isso é cancelado porque é o mesmo em todos os modelos com base nos mesmos dados. "Infelizmente, isso não está correto para a alteração no desvio. O desvio não inclui o termo constante Ex (constante extra probabilidade de log para os dados binomiais). Portanto, a mudança no desvio não tem nada a ver com o termo constante EX. O desvio compara um determinado modelo ao modelo completo.O fato de que os desvios são diferentes de Bernoulli / binário e modelagem binomial, mas a mudança no desvio não é devido à diferença nos valores completos de probabilidade de log do modelo. Esses valores são cancelados no cálculo das alterações de desvio. Portanto, os modelos de regressão logística de Bernoulli e binomial produzem alterações idênticas de desvio, desde que as probabilidades previstas pij e pi sejam as mesmas. De fato, isso é verdade para o probit e outras funções de link.
Permita que lBm e lBf denotem os valores de probabilidade logarítmica de ajustar o modelo me o modelo completo f aos dados de Bernoulli. O desvio é então
Embora o lBf seja zero para os dados binários, não simplificamos o banco de dados e o mantemos como está. O desvio da modelagem binomial com as mesmas covariáveis é
onde lbf + Ex e lbm + Ex são os valores de probabilidade logarítmica dos modelos full e m ajustados aos dados binomiais. O termo extra constante (Ex) desapareceu do lado direito do Db. Agora observe a mudança nos desvios do Modelo 1 para o Modelo 2. A partir da modelagem de Bernoulli, temos uma mudança no desvio de
Da mesma forma, a mudança no desvio do ajuste binomial é
Segue-se imediatamente que as alterações de desvio estão livres das contribuições de probabilidade de log dos modelos completos, lBf e lbf. Portanto, obteremos a mesma alteração no desvio, DBC = DbC, se lBm1 = lbm1 e lBm2 = lbm2. Sabemos que é o caso aqui e é por isso que estamos obtendo as mesmas alterações de desvio da modelagem binomial e de Bernoulli. A diferença entre lbf e lBf leva a diferentes desvios.
fonte