Na regressão múltipla, por que as interações são modeladas como produtos, e não outra coisa, dos preditores?

Podemos conceber uma "interação" entre as variáveis do regressor e como um afastamento de uma relação perfeitamente linear $x_1$ $x_2$ na qual a relação entre um regressor e a resposta é diferente para valores diferentes dos outros regressores. O "termo de interação" usual é, em um sentido a ser explicado abaixo, uma partida "mais simples".

Definições e Conceitos

"Relação linear" significa simplesmente o modelo usual no qual supomos que uma resposta difere de uma combinação linear de (e uma constante) por erros independentes de média zero $Y$ $x_i$ $\varepsilon:$

\begin{matrix} (*) & Y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + ε . \end{matrix}

$Y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \varepsilon.\tag{*}$

"Interação", no sentido mais geral, significa que os parâmetros podem depender de outras variáveis. $\beta_i$

Especificamente, neste exemplo de apenas dois regressores, podemos escrever genericamente

β_{1} = β_{1} (x_{2}) and β_{2} = β_{2} (x_{1}) .

$\beta_1 = \beta_1(x_2)\text{ and }\beta_2 = \beta_2(x_1).$

Análise

Agora, na prática, ninguém, exceto um físico teórico, realmente acredita que o modelo é totalmente preciso: é uma aproximação à verdade e, esperamos, uma aproximação. Prosseguindo ainda mais essa idéia, poderíamos perguntar se poderíamos aproximar as funções maneira semelhante às lineares, caso precisemos modelar algum tipo de interação. Especificamente, poderíamos tentar escrever $(*)$ $\beta_i$

β_{1} (x_{2}) = γ_{0} + γ_{1} x_{2} + {tiny error}_{1};

$\beta_1(x_2) = \gamma_0 + \gamma_1 x_2 + \text{ tiny error}_1;$

β_{2} (x_{1}) = δ_{0} + δ_{1} x_{1} + {tiny error}_{2} .

$\beta_2(x_1) = \delta_0 + \delta_1 x_1 + \text{ tiny error}_2.$

Vamos ver aonde isso leva. Conectar essas aproximações lineares em fornece $(*)$

\begin{aligned} Y & = β_{0} + β_{1} (x_{2}) x_{1} + β_{2} (x_{1}) x_{2} + ε \\ = β_{0} + (γ_{0} + γ_{1} x_{2} + {tiny error}_{1}) x_{1} + (δ_{0} + δ_{1} x_{1} + {tiny error}_{2}) x_{2} + ε \\ = β_{0} + γ_{0} x_{1} + δ_{0} x_{2} + (γ_{1} + δ_{1}) x_{1} x_{2} + \dots \end{aligned}

$\eqalign{ Y &= \beta_0 + \beta_1(x_2) x_1 + \beta_2(x_1) x_2 + \varepsilon \\ &= \beta_0 + (\gamma_0 + \gamma_1 x_2 + \text{ tiny error}_1)x_1 + (\delta_0 + \delta_1 x_1 + \text{ tiny error}_2)x_2 + \varepsilon \\ &= \beta_0 + \gamma_0 x_1 + \delta_0 x_2 + (\gamma_1 + \delta_1)x_1 x_2 + \ldots }$

onde " " representa o erro total, $\ldots$

\dots = ({tiny error}_{1}) x_{1} + ({tiny error}_{2}) x_{2} + ε .

$\ldots = (\text{ tiny error}_1)x_1 + (\text{ tiny error}_2)x_2 + \varepsilon.$

Com alguma sorte, multiplicar esses dois "pequenos erros" pelos valores típicos de (a) será inconseqüente em comparação com ou (b) pode ser tratado como termos aleatórios que, quando adicionados a (e talvez ajustando o termo constante para acomodar qualquer viés sistemático) pode ser tratado como um termo de erro aleatório. $x_i$ $\varepsilon$ $\varepsilon$ $\beta_0$

Nos dois casos, com uma mudança de notação, vemos que esse modelo de aproximação linear a uma interação assume a forma

\begin{matrix} (**) & Y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{12} x_{1} x_{2} + ε, \end{matrix}

$Y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_{12}x_1 x_2 + \varepsilon,\tag{**}$

que é precisamente o modelo de regressão usual de "interação". (Observe que nenhum dos novos parâmetros, nem o próprio , é a mesma quantidade originalmente representada por esses termos em ) $\varepsilon$ $(*).$

Observe como surge através da variação nos dois parâmetros originais. Ele captura a combinação de (i) como o coeficiente de depende de (ou seja, através de ) e (ii) como o coeficiente de depende de (através de ). $\beta_{12}$ $x_1$ $x_2$ $\gamma_1$ $x_2$ $x_1$ $\delta_1$

Algumas consequências

É uma conseqüência dessa análise que, se fixarmos todos, exceto um dos regressores, ( condicionalmente ) a resposta ainda será uma função linear do regressor restante. $Y$ Por exemplo, se fixarmos o valor de poderemos reescrever o modelo de interação como $x_2,$ $(**)$

Y = (β_{0} + β_{2} x_{2}) + (β_{1} + β_{12} x_{2}) x_{1} + ε,

$Y = (\beta_0 + \beta_2 x_2) + (\beta_1 + \beta_{12} x_2) x_1 + \varepsilon,$

onde a interceptação é e a inclinação (ou seja, o coeficiente ) é Isso permite fácil descrição e insight. Geometricamente, a superfície dada pela função $\beta_0 + \beta_2 x_2$ $x_1$ $\beta_1 + \beta_2 x_2.$

f (x_{1}, x_{2}) = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{12} x_{1} x_{2}

$f(x_1,x_2) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_{12}x_1x_2$

é governado: quando o dividimos paralelamente a qualquer um dos eixos de coordenadas, o resultado é sempre uma linha. (No entanto, a superfície em si não é plana, exceto quando De fato, em todos os lugares ela possui uma curvatura gaussiana negativa.) $\beta_{12}=0.$

Finalmente, se nossa esperança para (a) ou (b) não der certo, poderemos expandir ainda mais o comportamento funcional do original para incluir termos de segunda ordem ou superior. A realização da mesma análise mostra que isso introduzirá termos no formato e assim por diante no modelo. Nesse sentido, incluir um termo de interação (produto) é apenas o primeiro - e mais simples - passo para modelar relações não lineares entre a resposta e os regressores por meio de funções polinomiais. $\beta_i$ $x_1^2,$ $x_2^2,$ $x_1x_2^2,$ $x_1^2x_2,$

Finalmente, em seu livro EDA (Addison-Wesley 1977), John Tukey mostrou como essa abordagem pode ser realizada de maneira muito mais geral. Após a primeira "reexpressão" (ou seja, a aplicação de transformações não lineares adequadas) nos regressores e na resposta, geralmente é o caso que o modelo se aplica às variáveis transformadas ou, se não, ao modelo pode ser facilmente ajustado (usando uma análise robusta de resíduos). Isso permite que uma enorme variedade de relacionamentos não lineares seja expressa e interpretada como respostas condicionalmente lineares. $(*)$ $(**)$

whuber
fonte

Esta é uma resposta adorável e detalhada. Obrigado. Além disso, continuo vendo referências ao livro de Tukey sendo publicado neste site ... mesmo que seja tão antigo. Talvez seja hora de fazer uma leitura.

ChilliProject

Na regressão múltipla, por que as interações são modeladas como produtos, e não outra coisa, dos preditores?

Respostas:

Definições e Conceitos

Análise

Algumas consequências