Tenho dados de um experimento de pesquisa no qual os entrevistados foram aleatoriamente designados para um dos quatro grupos:
> summary(df$Group)
Control Treatment1 Treatment2 Treatment3
59 63 62 66
Enquanto os três grupos de tratamento variam ligeiramente no estímulo aplicado, a principal distinção com a qual me preocupo é entre os grupos controle e tratamento. Então eu defini uma variável dummy Control
:
> summary(df$Control)
TRUE FALSE
59 191
Na pesquisa, os entrevistados foram solicitados (entre outras coisas) a escolher qual das duas coisas preferiam:
> summary(df$Prefer)
A B NA's
152 93 5
Depois, depois de receber algum estímulo, conforme determinado pelo grupo de tratamento (e nenhum, se estivesse no grupo de controle), os entrevistados foram solicitados a escolher entre as mesmas duas coisas:
> summary(df$Choice)
A B
149 101
Quero saber se o fato de estar em um dos três grupos de tratamento afetou a escolha que os entrevistados fizeram nesta última pergunta. Minha hipótese é que os entrevistados que receberam um tratamento são mais propensos a escolher A
de B
.
Dado que estou trabalhando com dados categóricos, decidi usar uma regressão de logit (fique à vontade para entrar em contato se achar incorreto). Como os entrevistados foram designados aleatoriamente, tenho a impressão de que não preciso necessariamente controlar outras variáveis (por exemplo, dados demográficos), por isso deixei de fora essas perguntas. Meu primeiro modelo foi simplesmente o seguinte:
> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)
Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.8366 -0.5850 -0.5850 0.7663 1.9235
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.4819 0.3829 3.871 0.000109 ***
ControlFALSE -0.4068 0.3760 -1.082 0.279224
PreferA -2.7538 0.3269 -8.424 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 239.69 on 242 degrees of freedom
(5 observations deleted due to missingness)
AIC: 245.69
Number of Fisher Scoring iterations: 4
Tenho a impressão de que a interceptação sendo estatisticamente significativa não é algo que detenha significado interpretável. Pensei que talvez devesse incluir um termo de interação da seguinte maneira:
> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)
Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.5211 -0.6424 -0.5003 0.8519 2.0688
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.135 1.021 3.070 0.00214 **
ControlFALSE -2.309 1.054 -2.190 0.02853 *
PreferA -5.150 1.152 -4.472 7.75e-06 ***
ControlFALSE:PreferA 2.850 1.204 2.367 0.01795 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 231.27 on 241 degrees of freedom
(5 observations deleted due to missingness)
AIC: 239.27
Number of Fisher Scoring iterations: 5
Agora, o status dos entrevistados como em um grupo de tratamento tem o efeito esperado. Esse foi um conjunto válido de etapas? Como posso interpretar o termo de interação ControlFALSE:PreferA
? Os outros coeficientes ainda têm chances de log?
fonte
Respostas:
Suponho que PreferA = 1 quando um preferiu A e 0 caso contrário e que ControlFALSE = 1 quando tratado e 0 quando controle.
As chances de se preferir A quando uma pessoa não fez isso anteriormente e não recebeu tratamento (ControlFALSE = 0 e PreferA = 0) são , ou seja, existem 23 pessoas que preferem A para cada pessoa isso prefere B. Então A é muito popular.exp( 3.135 ) = 23
O efeito do tratamento refere-se a uma pessoa que não preferia A anteriormente (PreferA = 0). Nesse caso, as probabilidades da linha de base diminuem em um fator ou quando ela é submetida ao tratamento. Portanto, as chances de escolher A para aqueles que foram tratados e não preferiram A anteriormente são ; portanto, existe 2,3 pessoas que preferem A para cada pessoa que prefere B. Portanto, nesse grupo A ainda é mais popular que B, mas menos que no grupo não tratado / basal.( 1 - 0,099 ) × 100 % = - 90,1 % .099 ∗ 23 = 2,3exp( - 2,309 ) = 0,099 ( 1 - 0,099 ) × 100 % = - 90,1 % .099 ∗ 23 = 2,3
O efeito de preferir A refere-se anteriormente a uma pessoa que é um controle (ControlFALSE = 0). Nesse caso, as probabilidades da linha de base diminuem em um fator ou quando alguém A anteriormente. (Portanto, aqueles que consultaram A anteriormente têm muito menos probabilidade de fazê-lo agora. Isso faz sentido?)- 99,4 %.006 - 99,4 %
O efeito de interação compara o efeito do tratamento para as pessoas que preferiram A anteriormente e as que não o fizeram. Se uma pessoa preferiu A anteriormente (PreferA = 1), a razão de chances do tratamento aumenta em um fator . Portanto, a razão de chances de tratamento para aqueles que preferiram A anteriormente é de . Alternativamente, essa razão de chances de tratamento para aqueles que preferiram A anteriormente pode ser calculada como .17,3 × 0,099 = 1,71 exp ( 2,850 - 2,309 )exp( 2.850 ) = 17,3 17,3 × 0,099 = 1,71 exp( 2.850 - 2.309 )
Portanto, a constante exponenciada fornece as probabilidades da linha de base , os coeficientes exponenciados dos efeitos principais fornecem as razões de chances quando a outra variável é igual a 0, e o coeficiente exponenciado dos termos de interação informa a proporção pela qual a razão de chances muda .
fonte
ControlFALSE
valor de p é alto no primeiro modelo e, em seguida, o valor bastante baixo no segundo modelo. Aplicando sua resposta à minha outra pergunta nesse caso específico, você disse que isso poderia acontecer seControl
tivesse um efeito negativo em um grupoPrefer
e um efeito positivo no outro.ControlFALSE
primeiro modelo é o efeito do tratamento para os que preferiram A anteriormente e aqueles que não o fizeram, enquanto o efeito no segundo modelo é apenas o efeito do tratamento para aqueles que não preferiram A anteriormente. Se isso é bom ou não, não é uma questão estatística, mas se isso faz ou não sentido substancial.Também achei este artigo útil para interpretar a interação em regressão logística:
Chen, JJ (2003). Comunicação de informações complexas: a interpretação da interação estatística na análise de regressão logística múltipla . American journal of public public , 93 (9), 1376-1377.
fonte
Minha própria preferência, ao tentar interpretar interações na regressão logística, é examinar as probabilidades previstas para cada combinação de variáveis categóricas. No seu caso, isso seria apenas 4 probabilidades:
Quando tenho variáveis contínuas, geralmente olho para o valor previsto no mediano, 1º e 3º quartis.
Embora isso não atinja diretamente a interpretação de cada coeficiente, acho que muitas vezes permite que eu (e meus clientes) vejamos o que está acontecendo de maneira clara.
fonte