Na regressão linear, por que devemos incluir termos quadráticos quando estamos interessados ​​apenas em termos de interação?

10

Suponha que eu esteja interessado em um modelo de regressão linear, para , porque gostaria de ver se uma interação entre as duas covariáveis ​​afeta Y.

Yi=β0+β1x1+β2x2+β3x1x2

Nas anotações do curso de um professor (com quem não tenho contato), ele declara: Ao incluir termos de interação, você deve incluir os termos de segundo grau. ie deve ser incluído na regressão.

Yi=β0+β1x1+β2x2+β3x1x2+β4x12+β5x22

Por que devemos incluir termos de segundo grau quando estamos interessados ​​apenas nas interações?

fool126
fonte
7
Se o modelo tiver , ele deverá incluir e . Mas e são opcionais. x 1 x 2 x 2 1 x 2 2x1x2x1x2x12x22
User158565
6
A opinião do seu professor parece ser incomum. Pode resultar de um background especializado ou de um conjunto de experiências, porque "deveria" definitivamente não é um requisito universal. Você pode achar stats.stackexchange.com/questions/11009 de algum interesse.
whuber
@ user158565 oi! Posso perguntar por que também devemos incluir e ? Eu não pensei nisso originalmente, mas agora que você mencionou ..! x 2x1x2
precisa saber é o seguinte
@whuber hi! Obrigado pelo link! Eu acho que incluir o efeito principal faz sentido, mas tenho dificuldade em estender isso para ter que incluir termos de segunda ordem. // user158565 Acho que o link acima respondeu isso, obrigado!
precisa saber é o seguinte
Você poderia postar um link para os dados?
James Phillips

Respostas:

8

Depende do objetivo da inferência. Se você deseja inferir se existe uma interação, por exemplo, em um contexto causal (ou, de maneira mais geral, se você deseja interpretar o coeficiente de interação), essa recomendação do seu professor faz sentido e vem do fato de que a especificação incorreta da forma funcional pode levar a inferências erradas sobre a interação .

Aqui está um exemplo simples em que não há termo de interação entre e na equação estrutural de ; no entanto, se você não incluir o termo quadrático de , concluiria erroneamente que interage com quando, na verdade, não ' t.x1x2yx1x1x2

set.seed(10)
n <- 1e3
x1 <- rnorm(n)
x2 <- x1 + rnorm(n)
y <- x1 + x2 + x1^2 + rnorm(n)
summary(lm(y ~ x1 + x2 + x1:x2))

Call:
lm(formula = y ~ x1 + x2 + x1:x2)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.7781 -0.8326 -0.0806  0.7598  7.7929 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.30116    0.04813   6.257 5.81e-10 ***
x1           1.03142    0.05888  17.519  < 2e-16 ***
x2           1.01806    0.03971  25.638  < 2e-16 ***
x1:x2        0.63939    0.02390  26.757  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.308 on 996 degrees of freedom
Multiple R-squared:  0.7935,    Adjusted R-squared:  0.7929 
F-statistic:  1276 on 3 and 996 DF,  p-value: < 2.2e-16

Isso pode ser interpretado como simplesmente um caso de viés de variável omitida, e aqui é a variável omitida. Se você voltar e incluir o termo quadrado em sua regressão, a interação aparente desaparecerá.x12

summary(lm(y ~ x1 + x2 + x1:x2 + I(x1^2)))   

Call:
lm(formula = y ~ x1 + x2 + x1:x2 + I(x1^2))

Residuals:
    Min      1Q  Median      3Q     Max 
-3.4574 -0.7073  0.0228  0.6723  3.7135 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.0419958  0.0398423  -1.054    0.292    
x1           1.0296642  0.0458586  22.453   <2e-16 ***
x2           1.0017625  0.0309367  32.381   <2e-16 ***
I(x1^2)      1.0196002  0.0400940  25.430   <2e-16 ***
x1:x2       -0.0006889  0.0313045  -0.022    0.982    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.019 on 995 degrees of freedom
Multiple R-squared:  0.8748,    Adjusted R-squared:  0.8743 
F-statistic:  1739 on 4 and 995 DF,  p-value: < 2.2e-16

Certamente, esse raciocínio se aplica não apenas a termos quadráticos, mas a especificação incorreta da forma funcional em geral. O objetivo aqui é modelar a função de expectativa condicional adequadamente para avaliar a interação. Se você estiver se limitando à modelagem com regressão linear, precisará incluir esses termos não lineares manualmente. Mas uma alternativa é usar modelagem de regressão mais flexível, como a regressão de crista do kernel, por exemplo.

Carlos Cinelli
fonte
Obrigado @CarlosCinelli, em conclusão, você está dizendo que devemos incluir termos do mesmo grau - para explicar possíveis erros de especificação da forma funcional - e deixar a regressão determinar quais termos são significativos?
precisa saber é o seguinte
3
@ KevinC, a questão principal aqui é: você deseja interpretar o termo de interação? Se o fizer, a especificação incorreta da forma funcional é um problema real. A adição de termos quadráticos é apenas uma maneira simples de capturar não linearidades, mas a questão geral é modelar a função de expectativa condicional adequadamente.
Carlos Cinelli
11
Por favor, não inclua rm(list=ls())no código postado aqui! Se as pessoas simplesmente copiarem e colarem e executarem o código, poderão ter uma surpresa ... Eu o removi por enquanto.
Kjetil b halvorsen / 02/18
3

Os dois modelos que você listou em sua resposta podem ser reexpressos para deixar claro como o efeito de é postulado para depender de (ou o contrário) em cada modelo.X1X2

O primeiro modelo pode ser reexpresso assim:

Y=β0+(β1+β3X2)X1+β2X2+ϵ,

que mostra que, neste modelo, é assumido como tendo um efeito linear em (controlando o efeito de ), mas a magnitude desse efeito linear - capturada pelo coeficiente de inclinação de - muda linearmente em função de . Por exemplo, o efeito de em pode aumentar em magnitude à medida que os valores de aumentam.X1YX2X1X2X1YX2

O segundo modelo pode ser reexpresso assim:

Y=β0+(β1+β3X2)X1+β4X12+β2X2+β5X22+ϵ,

o que mostra que, nesse modelo, o efeito de em (controlando o efeito de ) é assumido como quadrático, e não linear. Esse efeito quadrático é capturado pela inclusão de e no modelo. Enquanto o coeficiente de é considerado independente de , o coeficiente de é considerado como linearmente dependente de .X1YX2X1X12X12X2X1X2

O uso de qualquer um dos modelos implicaria que você está fazendo suposições completamente diferentes sobre a natureza do efeito de em (controlando o efeito de ).X1YX2

Geralmente, as pessoas se encaixam no primeiro modelo. Eles podem plotar os resíduos desse modelo contra e em turnos. Se os resíduos revelarem um padrão quadrático nos resíduos em função de e / ou , o modelo poderá ser aumentado de acordo para incluir e / ou (e possivelmente a interação deles).X1X2X1X2X12X22

Observe que simplifiquei a notação usada para consistência e também expliquei o termo de erro nos dois modelos.

Isabella Ghement
fonte
2
Olá @IsabellaGhement, obrigado pela sua explicação. Em resumo, não há realmente "regras" em que devemos adicionar termos quadráticos se incluirmos termos de interação. No final do dia, ele volta às suposições que estamos fazendo sobre nosso modelo e aos resultados de nossa análise (ou seja, gráficos residuais). Isso está correto? Obrigado novamente :)!
precisa saber é o seguinte
2
Isso mesmo, Kevin! Não há "regras", porque cada conjunto de dados é diferente e também serve para responder a perguntas diferentes. É por isso que é importante estarmos cientes de que cada modelo que ajustamos a esse conjunto de dados implica suposições diferentes, que precisam ser suportadas pelos dados para que possamos confiar nos resultados do modelo. As plotagens de diagnóstico do modelo (por exemplo, plotagem de resíduos versus valores ajustados) nos ajudam a verificar até que ponto - se houver - os dados suportam as premissas do modelo.
Isabella Ghement
11
@KevinC: Ótimo! Boas festas para você também, Kevin! Is
Isabella Ghement