Interpretando termos de interação em regressão logit com variáveis ​​categóricas

25

Tenho dados de um experimento de pesquisa no qual os entrevistados foram aleatoriamente designados para um dos quatro grupos:

> summary(df$Group)
       Control     Treatment1     Treatment2     Treatment3 
            59             63             62             66 

Enquanto os três grupos de tratamento variam ligeiramente no estímulo aplicado, a principal distinção com a qual me preocupo é entre os grupos controle e tratamento. Então eu defini uma variável dummy Control:

> summary(df$Control)
     TRUE FALSE 
       59   191 

Na pesquisa, os entrevistados foram solicitados (entre outras coisas) a escolher qual das duas coisas preferiam:

> summary(df$Prefer)
      A   B  NA's 
    152  93   5 

Depois, depois de receber algum estímulo, conforme determinado pelo grupo de tratamento (e nenhum, se estivesse no grupo de controle), os entrevistados foram solicitados a escolher entre as mesmas duas coisas:

> summary(df$Choice)
  A    B 
149  101 

Quero saber se o fato de estar em um dos três grupos de tratamento afetou a escolha que os entrevistados fizeram nesta última pergunta. Minha hipótese é que os entrevistados que receberam um tratamento são mais propensos a escolher Ade B.

Dado que estou trabalhando com dados categóricos, decidi usar uma regressão de logit (fique à vontade para entrar em contato se achar incorreto). Como os entrevistados foram designados aleatoriamente, tenho a impressão de que não preciso necessariamente controlar outras variáveis ​​(por exemplo, dados demográficos), por isso deixei de fora essas perguntas. Meu primeiro modelo foi simplesmente o seguinte:

> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)

Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.8366  -0.5850  -0.5850   0.7663   1.9235  

Coefficients:
                    Estimate Std. Error z value Pr(>|z|)    
(Intercept)           1.4819     0.3829   3.871 0.000109 ***
ControlFALSE         -0.4068     0.3760  -1.082 0.279224    
PreferA              -2.7538     0.3269  -8.424  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 239.69  on 242  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 245.69

Number of Fisher Scoring iterations: 4

Tenho a impressão de que a interceptação sendo estatisticamente significativa não é algo que detenha significado interpretável. Pensei que talvez devesse incluir um termo de interação da seguinte maneira:

> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)

Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.5211  -0.6424  -0.5003   0.8519   2.0688  

Coefficients:
                                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)                         3.135      1.021   3.070  0.00214 ** 
ControlFALSE                       -2.309      1.054  -2.190  0.02853 *  
PreferA                            -5.150      1.152  -4.472 7.75e-06 ***
ControlFALSE:PreferA                2.850      1.204   2.367  0.01795 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 231.27  on 241  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 239.27

Number of Fisher Scoring iterations: 5

Agora, o status dos entrevistados como em um grupo de tratamento tem o efeito esperado. Esse foi um conjunto válido de etapas? Como posso interpretar o termo de interação ControlFALSE:PreferA? Os outros coeficientes ainda têm chances de log?

Pigmalião
fonte
Minha resposta aqui é relevante: stats.stackexchange.com/questions/246873/…
kjetil b halvorsen

Respostas:

31

Suponho que PreferA = 1 quando um preferiu A e 0 caso contrário e que ControlFALSE = 1 quando tratado e 0 quando controle.

As chances de se preferir A quando uma pessoa não fez isso anteriormente e não recebeu tratamento (ControlFALSE = 0 e PreferA = 0) são , ou seja, existem 23 pessoas que preferem A para cada pessoa isso prefere B. Então A é muito popular.exp(3.135)=23

O efeito do tratamento refere-se a uma pessoa que não preferia A anteriormente (PreferA = 0). Nesse caso, as probabilidades da linha de base diminuem em um fator ou quando ela é submetida ao tratamento. Portanto, as chances de escolher A para aqueles que foram tratados e não preferiram A anteriormente são ; portanto, existe 2,3 pessoas que preferem A para cada pessoa que prefere B. Portanto, nesse grupo A ainda é mais popular que B, mas menos que no grupo não tratado / basal.( 1 - 0,099 ) × 100 % = - 90,1 % .099 23 = 2,3exp(2.309)=.099(1.099)×100%=90.1%.09923=2.3

O efeito de preferir A refere-se anteriormente a uma pessoa que é um controle (ControlFALSE = 0). Nesse caso, as probabilidades da linha de base diminuem em um fator ou quando alguém A anteriormente. (Portanto, aqueles que consultaram A anteriormente têm muito menos probabilidade de fazê-lo agora. Isso faz sentido?)- 99,4 %.00699.4%

O efeito de interação compara o efeito do tratamento para as pessoas que preferiram A anteriormente e as que não o fizeram. Se uma pessoa preferiu A anteriormente (PreferA = 1), a razão de chances do tratamento aumenta em um fator . Portanto, a razão de chances de tratamento para aqueles que preferiram A anteriormente é de . Alternativamente, essa razão de chances de tratamento para aqueles que preferiram A anteriormente pode ser calculada como .17,3 × 0,099 = 1,71 exp ( 2,850 - 2,309 )exp(2.850)=17.317.3×.099=1.71exp(2.8502.309)

Portanto, a constante exponenciada fornece as probabilidades da linha de base , os coeficientes exponenciados dos efeitos principais fornecem as razões de chances quando a outra variável é igual a 0, e o coeficiente exponenciado dos termos de interação informa a proporção pela qual a razão de chances muda .

Maarten Buis
fonte
Obrigado Maarten, isso é muito útil, pois é sua resposta para minha outra pergunta relacionada. Gostaria apenas de um pouco de esclarecimento sobre um ponto, no entanto. Como aludi na minha outra pergunta, estou preocupado com a validade estatística do que fiz aqui, porque o ControlFALSEvalor de p é alto no primeiro modelo e, em seguida, o valor bastante baixo no segundo modelo. Aplicando sua resposta à minha outra pergunta nesse caso específico, você disse que isso poderia acontecer se Controltivesse um efeito negativo em um grupo Prefere um efeito positivo no outro.
precisa
(ficou sem espaço) Essa interpretação faz sentido aqui? Não sei exatamente como aplicá-lo diretamente.
precisa
O efeito do ControlFALSEprimeiro modelo é o efeito do tratamento para os que preferiram A anteriormente e aqueles que não o fizeram, enquanto o efeito no segundo modelo é apenas o efeito do tratamento para aqueles que não preferiram A anteriormente. Se isso é bom ou não, não é uma questão estatística, mas se isso faz ou não sentido substancial.
Maarten Buis
@MaartenBuis Ótima explicação. Como você faria os cálculos equivalentes para os intervalos de confiança das estimativas? Para facilitar a interpretação, eu geralmente estratificados os modelos logísticos (por exemplo, de preferência antes neste exemplo) e usar o termo de interação como um "teste estatístico para a diferença significativa na Ou isso é aceitável.?
bobmcpop
2

Também achei este artigo útil para interpretar a interação em regressão logística:

Chen, JJ (2003). Comunicação de informações complexas: a interpretação da interação estatística na análise de regressão logística múltipla . American journal of public public , 93 (9), 1376-1377.

deepseas
fonte
4
Forneci uma referência completa (título, autor, data, periódico etc.), o que significa que a contribuição ainda será útil se o endereço do link mudar. Mas você poderia expandi-lo para resumir o conteúdo? Caso contrário, isso é realmente mais um comentário do que uma resposta - preferimos que nossas respostas sejam independentes, portanto, elas são resistentes ao "link-apodrecer". Como alternativa, podemos converter isso em um comentário para você.
Silverfish
Obrigado. Eu estava ligando o NCBI, então achei que seria bom. Eu concordo com as mudanças. Obrigado!
25416 deepseas
0

Minha própria preferência, ao tentar interpretar interações na regressão logística, é examinar as probabilidades previstas para cada combinação de variáveis ​​categóricas. No seu caso, isso seria apenas 4 probabilidades:

  1. Prefira A, controle verdadeiro
  2. Prefira A, controle false
  3. Prefira B, controle verdadeiro
  4. Prefira B, controle falso

Quando tenho variáveis ​​contínuas, geralmente olho para o valor previsto no mediano, 1º e 3º quartis.

Embora isso não atinja diretamente a interpretação de cada coeficiente, acho que muitas vezes permite que eu (e meus clientes) vejamos o que está acontecendo de maneira clara.

Peter Flom - Restabelece Monica
fonte