como interpretar o termo de interação na fórmula lm em R?

9

Em R, se eu chamar a lm()função da seguinte maneira:

lm.1 = lm(response ~ var1 + var2 + var1 * var2)
summary(lm.1)

Isso me dá um modelo linear da variável resposta com var1, var2e a interação entre eles. No entanto, como exatamente interpretamos numericamente o termo de interação?

A documentação diz que este é o "cruzamento" entre var1e var2, mas não deu uma explicação do que exatamente é o "cruzamento".

Seria útil saber quais números exatos R está calculando para incorporar a interação entre as duas variáveis.

Enzo
fonte
Você gostaria de saber especificamente como R cria a matriz de design para esta fórmula ou está mais amplamente interessado em como interpretar um termo tão multiplicativo ("interação") em termos do modelo ajustado?
Momo
Estou mais interessado em como interpretar esse termo multiplicativo. Por exemplo, se eu quiser escrever uma fórmula linear (matemática, não R ...), o que devo colocar no termo multiplicativo?
21313 Enzo
Para explicar o que significa cruz, ter um olhar para o cálculo var3 <- var 1 * var2, em seguida, construirlm.2 <- lm(response ~ var1 + var2 + var3)
James Stanley
11
então é simplesmente multiplicação de entrada?
21313 Enzo
11
@Enzo, sim, a cruz é literalmente os dois termos multiplicados - a interpretação dependerá em grande parte de ser var1e var2contínua (na minha opinião, é bastante contínua) ou se um deles é, por exemplo, categórico binário (mais fácil de considerar.) Veja esta resposta para alguns exemplos de interpretação de Peter Flom: stats.stackexchange.com/a/45512/16974
James Stanley

Respostas:

8

A maneira padrão de escrever a equação de previsão para o seu modelo é:

y^=b0 0+b1 1x1 1+b2x2+b12x1 1x2

Mas entender a interação é um pouco mais fácil se considerarmos isso de maneira diferente:

y^=(b0 0+b2x2)+(b1 1+b12x2)x1 1

x2x1 1b0 0+b2x2x1 1(b1 1+b12x2)yx1 1x2

yx1 1x2Predict.PlotTkPredict

Greg Snow
fonte
3

x1 1x2lm

y=4x1 1+2x2+1.5x1 1x2

Era isso que você queria?

Peter Flom - Restabelece Monica
fonte
3

É mais fácil pensar em interações em termos de variáveis ​​discretas. Talvez você possa ter estudado ANOVAs bidirecionais, onde temos duas variáveis ​​de agrupamento (por exemplo, sexo e categoria etária, com três níveis de idade) e está analisando como elas pertencem a alguma medida contínua (nossa variável dependente, por exemplo, QI).

O termo x1 * x2, se significativo, pode ser entendido (neste exemplo trivial e inventado) como QI se comportando de maneira diferente nos diferentes níveis de idade para os diferentes sexos. Por exemplo, talvez o QI seja estável para homens nos três grupos etários, mas as mulheres jovens começam abaixo dos homens jovens e têm uma trajetória ascendente (com o grupo de idade avançada tendo uma média mais alta que o grupo de idade masculina). Em um gráfico de médias, isso implicaria uma linha horizontal para machos no meio do gráfico e talvez uma linha de 45 graus para fêmeas que começa abaixo dos machos, mas termina acima dos machos.

A essência é que, à medida que você se move pelos níveis de uma variável (ou "mantendo X1 constante"), o que está acontecendo nas outras variáveis ​​muda. Essa interpretação também funciona com variáveis ​​preditivas contínuas, mas não é tão fácil ilustrar concretamente. Nesse caso, convém pegar valores específicos de X1 e X2 e ver o que acontece com Y.

Twitch_City
fonte