Interpretação de coeficientes de uma interação entre variável categórica e variável contínua

9

Eu tenho uma pergunta sobre a interpretação dos coeficientes de uma interação entre variável contínua e variável categórica. aqui está o meu modelo:

model_glm3=glm(cog~lg_hag+race+pdg+sex+as.factor(educa)+(lg_hag:as.factor(educa)), 
               data=base_708)

Coefficients:
                         Estimate Std. Error t value Pr(>|t|)    
(Intercept)               21.4836     2.0698  10.380  < 2e-16 ***
lg_hag                     8.5691     3.7688   2.274  0.02334 *  
raceblack                 -8.4715     1.7482  -4.846 1.61e-06 ***
racemexican               -3.0483     1.7073  -1.785  0.07469 .  
racemulti/other           -4.6002     2.3098  -1.992  0.04687 *  
pdg                        2.8038     0.4268   6.570 1.10e-10 ***
sexfemale                  4.5691     1.1203   4.078 5.15e-05 ***
as.factor(educa)2         13.8266     2.6362   5.245 2.17e-07 ***
as.factor(educa)3         21.7913     2.4424   8.922  < 2e-16 ***
as.factor(educa)4         19.0179     2.5219   7.541 1.74e-13 ***
as.factor(educa)5         23.7470     2.7406   8.665  < 2e-16 ***
lg_hag:as.factor(educa)2 -21.2224     6.5904  -3.220  0.00135 ** 
lg_hag:as.factor(educa)3 -19.8083     6.1255  -3.234  0.00129 ** 
lg_hag:as.factor(educa)4  -8.5502     6.6018  -1.295  0.19577    
lg_hag:as.factor(educa)5 -17.2230     6.3711  -2.703  0.00706 ***

digamos que a equação do modelo seja:

E [cog] = a + b1 (lg_hag) + b2 (educa2 * lg_hag) + b3 (educa3 * lg_hag) + b4 (educa4 * lg_hag) + b5 (pdg, centralizado) + outros covares, em que

b1 = difference in cog  with higher lg_hag among lowest education (coded as 1)
b1 + b2 = difference in cog with higher lg_hag among middle education (coded as 2)
b1 + b3 = difference in cog with higher lg_hag among high education (coded as 3)
b1 + b3 = difference in cog with higher lg_hag among very high education (coded as 4)
b5 = difference in cog with each unit increase in pdg

Minha pergunta é: se minha interpretação está correta, como construir intervalos de confiança para cada efeito estimado de interações (por exemplo: b1 + b2) a partir dos intervalos de confiança de b1 e b2.

You Safe
fonte
não está muito familiarizado com como fazer isso em R. suponha que no sas você possa obter o resultado pela declaração "estimativa", consulte support.sas.com/documentation/cdl/en/statug/63033/HTML/default/…
boomean

Respostas:

7

Sua interpretação dos coeficientes do modelo não é completamente precisa. Deixe-me primeiro resumir os termos do modelo.

racesexeduca

racerace={white,black,mexican,multi/other}

sexsex={male,female}

educaeduca={1,2,3,4,5}

Por padrão, R usa contrastes de tratamento para variáveis ​​categóricas. Nesses contrastes, o primeiro valor do fator é usado em um nível de referência e os demais valores são testados em relação à referência. O número máximo de contrastes para uma variável categórica é igual ao número de níveis menos um.

racerace=black vs.race=whiterace=mexican vs.race=whiterace=multi/other vs.race=white

educa1cog13.8266educa=2educa=1as.factor(educa)2

raceeducaraceeducasex

lg_hagpdg

lg_hagpdg1

pdglg_hageducaeduca=1lg_hag

lg_hag×educa

lg_hageducalg_hageducaeduca=1

lg_hag:as.factor(educa)2-21.2224lg_hag21.2224educa=2educa=1

Sven Hohenstein
fonte
"Esses coeficientes de interação também valem para race=whitee sex=malesomente". Você tem certeza disso? Eu pergunto porque nem racenem sexestá em interação com o lg_hag×educatermo ... Estou vendo vários textos que não vejo isso explicitamente indicado.
landroni
2
@landroni As pistas são estimados para o ponto onde estão todos os preditores restantes são iguais a 0.
Sven Hohenstein
Sim, esse é o meu entendimento também. Todos os outros preditores são mantidos constantes, o que significa que os fatores são fixados no nível da linha de base. Mas é aí que está o meu enigma: observei vários livros que parecem encobrir essa nuance sutil, mas abrangente. Além disso, os documentos geralmente "controlam pela indústria" e ainda tiram conclusões como se os coeficientes fossem incondicionais em toda a amostra, em vez de destacar que isso é apenas para o nível da linha de base. Veja também: stats.stackexchange.com/questions/146665/ ...
landroni
11
"Se contrastes de tratamento para uma variável categórica estão presentes em um modelo, a estimativa de efeitos adicionais é baseada no nível de referência da variável categórica". Após uma análise mais aprofundada, não estou convencido (ou não sigo totalmente seu argumento). Você parece sugerir que a estimativa de beta para, por exemplo, pdgdepende do nível de referência, o que claramente não é o caso. Se eu mudar o nível de referência de qualquer um dos factores (por exemplo sex), a estimativa para pdgnão mudará ...
landroni
11
@landroni Obrigado por apontar. Você está certo, esta afirmação é enganosa. Na verdade, ele é válido apenas para preditores que também fazem parte dos termos de interação com variáveis ​​categóricas. Portanto, a estimativa de de pdgfato não depende da especificação dos contrastes. Modificarei a resposta de acordo.
Sven Hohenstein