Eu tenho dois preditores em um modelo de regressão logística binária: um binário e um contínuo. Meu objetivo principal é comparar os coeficientes dos dois preditores dentro do mesmo modelo.
Encontrei a sugestão de Andrew Gelman para padronizar variáveis de entrada de regressão contínua:
I) Proposta original (2008): divida o preditor contínuo por 2 DP
Original manuscript:
http://www.stat.columbia.edu/~gelman/research/published/standardizing7.pdf
II) Recomendação atualizada (2009): divida o preditor contínuo por 1 SD E re-codifique os valores de entrada binária de (0,1) para (-1, + 1)).
Updated recommendation (1 SD, recode binary):
http://andrewgelman.com/2009/06/09/standardization/
A interpretação adequada dos coeficientes resultantes ainda é ilusória para mim:
CENÁRIO 1: AMBOS OS PREDITORES SÃO SIGNIFICATIVOS NO MESMO MODELO
Resultado: binário não transformado Y Preditor contínuo: XCONT (dividido por 1sd) Preditor binário: XBIN (recodificado para obter os valores -1 ou 1)
> orfit1c=with(data=mat0, glm(YBIN~XCONT+XBIN,
family=binomial(link="logit")))
> summary(orfit1c)
Call:
glm(formula = YBIN ~XCONT + XBIN, family = binomial(link = "logit"))
Deviance Residuals:
Min 1Q Median 3Q Max
-0.9842 -0.6001 -0.5481 -0.5481 1.9849
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.8197 0.1761 -10.331 < 2e-16 ***
XCONT 0.3175 0.1190 2.667 0.00765 **
XBIN 1.0845 0.3564 3.043 0.00234 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 398.99 on 409 degrees of freedom
Residual deviance: 385.88 on 407 degrees of freedom
AIC: 391.88
CENÁRIO 2: NENHUM SIGNIFICATIVO NO MESMO MODELO (MAS, quando inseridos separadamente em dois modelos diferentes, seus coeficientes são significativos)
Call:
glm(formula =YBIN2 ~ XCONT2 + XBIN2, family = binomial(link =
"logit"))
Deviance Residuals:
Min 1Q Median 3Q Max
-1.0090 -0.6265 -0.5795 -0.5795 1.9573
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.7562 0.1835 -9.570 <2e-16 ***
XCONT2 0.2182 0.1318 1.656 0.0977 .
XBIN2 0.6063 0.3918 1.547 0.1218
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 398.99 on 409 degrees of freedom
Residual deviance: 390.01 on 407 degrees of freedom
AIC: 396.01
Pergunta: Para o método de dimensionamento original, foi explicado que "uma alteração de uma unidade em um preditor contínuo cobre dois desvios padrão desse preditor"
Para o método de dimensionamento atualizado, estou correto na minha interpretação do cenário 1 que:
(1) uma alteração de uma unidade no preditor contínuo cobre 1 desvio padrão do XCONT
(2) e essa alteração em 1 SD no XCONT é equivalente a uma alteração de 1 unidade (ou seja, ausência ou presença) do preditor binário (XBIN).
(3) consequentemente, 1 mudança de SD no XBIN prevê um aumento de 1 unidade no YBIN, enquanto um aumento de 1/3 da unidade no YCONT prevê um aumento de 1 unidade no YBIN?
QUESTÕES
A interpretação descrita em 1-3 precisa de alguma correção? Como a variável de resultado binário não foi recodificada, ainda posso dizer que 1 mudança de unidade em X prevê uma mudança de 1 unidade no resultado binário (0 ou 1)?
O que mais se pode dizer sobre os resultados, especificamente quando tento comparar os dois coeficientes para os preditores contínuos e binários?