Interpretação dos coeficientes de regressão com base no método de redimensionamento de Andrew Gelman

8

Eu tenho dois preditores em um modelo de regressão logística binária: um binário e um contínuo. Meu objetivo principal é comparar os coeficientes dos dois preditores dentro do mesmo modelo.

Encontrei a sugestão de Andrew Gelman para padronizar variáveis ​​de entrada de regressão contínua:

I) Proposta original (2008): divida o preditor contínuo por 2 DP

Original manuscript: 
http://www.stat.columbia.edu/~gelman/research/published/standardizing7.pdf

II) Recomendação atualizada (2009): divida o preditor contínuo por 1 SD E re-codifique os valores de entrada binária de (0,1) para (-1, + 1)).

Updated recommendation (1 SD, recode binary):
http://andrewgelman.com/2009/06/09/standardization/

A interpretação adequada dos coeficientes resultantes ainda é ilusória para mim:

CENÁRIO 1: AMBOS OS PREDITORES SÃO SIGNIFICATIVOS NO MESMO MODELO

Resultado: binário não transformado Y Preditor contínuo: XCONT (dividido por 1sd) Preditor binário: XBIN (recodificado para obter os valores -1 ou 1)

  > orfit1c=with(data=mat0, glm(YBIN~XCONT+XBIN, 
   family=binomial(link="logit")))
  > summary(orfit1c)

   Call:
   glm(formula = YBIN ~XCONT + XBIN, family = binomial(link = "logit"))

   Deviance Residuals: 
           Min       1Q   Median       3Q      Max  
       -0.9842  -0.6001  -0.5481  -0.5481   1.9849  

       Coefficients:
                    Estimate Std. Error z value Pr(>|z|)    
        (Intercept)  -1.8197     0.1761 -10.331  < 2e-16 ***
        XCONT         0.3175     0.1190   2.667  0.00765 ** 
        XBIN          1.0845     0.3564   3.043  0.00234 ** 
        ---
       Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

       (Dispersion parameter for binomial family taken to be 1)

       Null deviance: 398.99  on 409  degrees of freedom
       Residual deviance: 385.88  on 407  degrees of freedom
       AIC: 391.88

CENÁRIO 2: NENHUM SIGNIFICATIVO NO MESMO MODELO (MAS, quando inseridos separadamente em dois modelos diferentes, seus coeficientes são significativos)

       Call:
      glm(formula =YBIN2 ~ XCONT2 + XBIN2, family = binomial(link = 
       "logit"))

               Deviance Residuals: 
           Min       1Q   Median       3Q      Max  
          -1.0090  -0.6265  -0.5795  -0.5795   1.9573  

            Coefficients:
                   Estimate Std. Error z value Pr(>|z|)    
       (Intercept)  -1.7562     0.1835  -9.570   <2e-16 ***
       XCONT2         0.2182     0.1318   1.656   0.0977 .  
       XBIN2        0.6063     0.3918   1.547   0.1218    
                         ---
       Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

          (Dispersion parameter for binomial family taken to be 1)

          Null deviance: 398.99  on 409  degrees of freedom
          Residual deviance: 390.01  on 407  degrees of freedom
          AIC: 396.01

Pergunta: Para o método de dimensionamento original, foi explicado que "uma alteração de uma unidade em um preditor contínuo cobre dois desvios padrão desse preditor"

Para o método de dimensionamento atualizado, estou correto na minha interpretação do cenário 1 que:

(1) uma alteração de uma unidade no preditor contínuo cobre 1 desvio padrão do XCONT

(2) e essa alteração em 1 SD no XCONT é equivalente a uma alteração de 1 unidade (ou seja, ausência ou presença) do preditor binário (XBIN).

(3) consequentemente, 1 mudança de SD no XBIN prevê um aumento de 1 unidade no YBIN, enquanto um aumento de 1/3 da unidade no YCONT prevê um aumento de 1 unidade no YBIN?

QUESTÕES

  • A interpretação descrita em 1-3 precisa de alguma correção? Como a variável de resultado binário não foi recodificada, ainda posso dizer que 1 mudança de unidade em X prevê uma mudança de 1 unidade no resultado binário (0 ou 1)?

  • O que mais se pode dizer sobre os resultados, especificamente quando tento comparar os dois coeficientes para os preditores contínuos e binários?

ksroogl
fonte

Respostas:

-1

(1) é um pouco desajeitado, e não sei exatamente o que você quer dizer. Eu interpretaria a estimativa do parâmetro XCONT como:

Observações Um desvio padrão acima da média do XCONT tem YBIN ~ 32% mais frequentemente.

Ao interpretar a estimativa de parâmetro XBIN, lembre-se de que está interpretando na média de XCONT.

Richard McElreath trabalha com um exemplo desse redimensionamento no Statistical Repensing.

atmo
fonte
2
Esta resposta não faz sentido.
Michael R. Chernick
@MichaelChernick gostaria de receber seus pensamentos sobre a pergunta original
ksroogl
Não estou familiarizado com a lógica de Gelman. Não entendo por que ele altera o valor binário de 0 para -1.
Michael R. Chernick 23/02/19
@MichaelChernick Eu acho que é por isso que os níveis binários escalonados pode ser simétrico em torno 0.
shadowtalker
Isso certamente poderia funcionar. Por que a simetria em torno de 0 é uma boa coisa a se fazer?
Michael R. Chernick 23/09/19