O termo quadrático ou de interação é significativo isoladamente, mas nenhum dos dois está junto

15

Como parte de uma tarefa, tive que ajustar um modelo com duas variáveis preditoras. Tive então que desenhar um gráfico dos resíduos dos modelos em relação a um dos preditores incluídos e fazer alterações com base nisso. O gráfico mostrou uma tendência curvilínea e, portanto, incluí um termo quadrático para esse preditor. O novo modelo mostrou que o termo quadrático é significativo. Tudo de bom até agora.

No entanto, os dados sugerem que uma interação também faz sentido. A adição de um termo de interação ao modelo original também 'fixou' a tendência curvilínea e também foi significativa quando adicionada ao modelo (sem o termo quadrático). O problema é que, quando os termos quadrático e de interação são adicionados ao modelo, um deles não é significativo.

Qual termo (o quadrático ou a interação) devo incluir no modelo e por quê?

statistical-significance multiple-regression modeling Tal Bashan
fonte

21

Sinopse

Quando os preditores são correlacionados, um termo quadrático e um termo de interação carregam informações semelhantes. Isso pode fazer com que o modelo quadrático ou o modelo de interação seja significativo; mas quando os dois termos são incluídos, por serem tão semelhantes, nenhum deles pode ser significativo. O diagnóstico padrão de multicolinearidade, como o VIF, pode não conseguir detectar nada disso. Mesmo um gráfico de diagnóstico, projetado especificamente para detectar o efeito do uso de um modelo quadrático no lugar da interação, pode não conseguir determinar qual modelo é o melhor.

Análise

O objetivo desta análise, e sua principal força, é caracterizar situações como a descrita na pergunta. Com essa caracterização disponível, é uma tarefa fácil simular dados que se comportam de acordo.

Considere dois preditores e (que padronizaremos automaticamente para que cada um tenha variação de unidade no conjunto de dados) e suponha que a resposta aleatória seja determinada por esses preditores e sua interação, além de erro aleatório independente: $X_1$ $X_2$ $Y$

Y = β_{1} X_{1} + β_{2} X_{2} + β_{1, 2} X_{1} X_{2} + ε .

$Y = \beta_1 X_1 + \beta_2 X_2 + \beta_{1,2} X_1 X_2 + \varepsilon.$

Em muitos casos, os preditores estão correlacionados. O conjunto de dados pode ficar assim:

Matriz de dispersão

Esses dados da amostra foram gerados com $\beta_1=\beta_2=1$ e . A correlação entre e é . $\beta_{1,2}=0.1$ $X_1$ $X_2$ $0.85$

Isso não significa necessariamente que estamos pensando em e como realização de variáveis aleatórias: pode incluir a situação em que e são configurações em um experimento projetado, mas, por alguma razão, essas configurações não são ortogonais. $X_1$ $X_2$ $X_1$ $X_2$

Independentemente de como a correlação surgir, uma boa maneira de descrevê-la é em termos de quanto os preditores diferem de sua média, . Essas diferenças serão razoavelmente pequenas (no sentido de que sua variação é menor que ); quanto maior a correlação entre e , podemos re-expressar (digamos) em termos de $X_0 = (X_1+X_2)/2$ $1$ $X_1$ , menores serão essas diferenças. Escrevendo, então, e $X_2$ $X_1 = X_0 + \delta_1$ $X_2 = X_0 + \delta_2$ $X_2$ $X_1$ como . Conectando isso apenas ao termo de interação , o modelo é $X_2 = X_1 + (\delta_2-\delta_1)$

\begin{aligned} Y & = β_{1} X_{1} + β_{2} X_{2} + β_{1, 2} X_{1} (X_{1} + [δ_{2} - δ_{1}]) + ε \\ = (β_{1} + β_{1, 2} [δ_{2} - δ_{1}]) X_{1} + β_{2} X_{2} + β_{1, 2} X_{1}^{2} + ε \end{aligned}

$\eqalign{ Y &= \beta_1 X_1+ \beta_2 X_2 + \beta_{1,2}X_1(X_1+ [\delta_2-\delta_1]) + \varepsilon \\ &= (\beta_1 + \beta_{1,2}[\delta_2-\delta_1]) X_1+ \beta_2 X_2 + \beta_{1,2}X_1^2 + \varepsilon }$

Desde que os valores de variem apenas um pouco em comparação com , podemos reunir essa variação com os verdadeiros termos aleatórios, escrevendo $\beta_{1,2}[\delta_2-\delta_1]$ $\beta_1$

Y = β_{1} X_{1} + β_{2} X_{2} + β_{1, 2} X_{1}^{2} + (ε + β_{1, 2} [δ_{2} - δ_{1}] X_{1})

$Y = \beta_1 X_1+ \beta_2 X_2 + \beta_{1,2}X_1^2 + \left(\varepsilon +\beta_{1,2}[\delta_2-\delta_1] X_1\right)$

Assim, se regredirmos contra e , estaremos cometendo um erro: a variação nos resíduos dependerá de (ou seja, será heterocedástico ). Isso pode ser visto com um simples cálculo de variação: $Y$ $X_1, X_2$ $X_1^2$ $X_1$

var (ε + β_{1, 2} [δ_{2} - δ_{1}] X_{1}) = var (ε) + [β_{1, 2}^{2} var (δ_{2} - δ_{1})] X_{1}^{2} .

$\text{var}\left(\varepsilon +\beta_{1,2}[\delta_2-\delta_1] X_1\right) = \text{var}(\varepsilon) + \left[\beta_{1,2}^2\text{var}(\delta_2-\delta_1)\right]X_1^2.$

$\varepsilon$ $\beta_{1,2}[\delta_2-\delta_1] X_1$ $X_1$ $X_1$

$X_1$ $X_2$ $\delta_2-\delta_1$ $\beta_{1,2}$

In short, when the predictors are correlated and the interaction is small but not too small, a quadratic term (in either predictor alone) and an interaction term will be individually significant but confounded with each other. Statistical methods alone are unlikely to help us decide which is better to use.

Example

Let's check this out with the sample data by fitting several models. Recall that $\beta_{1,2}$ was set to $0.1$ when simulating these data. Although that is small (the quadratic behavior is not even visible in the previous scatterplots), with $150$ data points we have a chance of detecting it.

First, the quadratic model:

            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.03363    0.03046   1.104  0.27130    
x1           0.92188    0.04081  22.592  < 2e-16 ***
x2           1.05208    0.04085  25.756  < 2e-16 ***
I(x1^2)      0.06776    0.02157   3.141  0.00204 ** 

Residual standard error: 0.2651 on 146 degrees of freedom
Multiple R-squared: 0.9812, Adjusted R-squared: 0.9808

The quadratic term is significant. Its coefficient, $0.068$ , underestimates $\beta_{1,2}=0.1$ , mas é do tamanho e sinal certos. Como verificação da multicolinearidade (correlação entre os preditores), calculamos os fatores de inflação de variação (VIF):

      x1       x2  I(x1^2) 
3.531167 3.538512 1.009199

Qualquer valor menor que $5$ geralmente é considerado bom. Estes não são alarmantes.

Em seguida, o modelo com uma interação, mas sem termo quadrático:

            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.02887    0.02975    0.97 0.333420    
x1           0.93157    0.04036   23.08  < 2e-16 ***
x2           1.04580    0.04039   25.89  < 2e-16 ***
x1:x2        0.08581    0.02451    3.50 0.000617 ***

Residual standard error: 0.2631 on 146 degrees of freedom
Multiple R-squared: 0.9815, Adjusted R-squared: 0.9811

      x1       x2    x1:x2 
3.506569 3.512599 1.004566

Todos os resultados são semelhantes aos anteriores. Ambos são igualmente bons (com uma vantagem muito pequena para o modelo de interação).

Por fim, vamos incluir os termos de interação e quadráticos :

            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.02572    0.03074   0.837    0.404    
x1           0.92911    0.04088  22.729   <2e-16 ***
x2           1.04771    0.04075  25.710   <2e-16 ***
I(x1^2)      0.01677    0.03926   0.427    0.670    
x1:x2        0.06973    0.04495   1.551    0.123    

Residual standard error: 0.2638 on 145 degrees of freedom
Multiple R-squared: 0.9815, Adjusted R-squared: 0.981 

      x1       x2  I(x1^2)    x1:x2 
3.577700 3.555465 3.374533 3.359040

Agora, nem o termo quadrático nem o termo de interação são significativos, porque cada um está tentando estimar uma parte da interação no modelo. Outra maneira de ver isso é que nada foi ganho (em termos de redução do erro padrão residual) ao adicionar o termo quadrático ao modelo de interação ou ao adicionar o termo de interação ao modelo quadrático. Vale ressaltar que os VIFs não detectam essa situação: embora a explicação fundamental para o que vimos seja a ligeira colinearidade entre $X_1$ e $X_2$ , que induz uma colinearidade entre $X_1^2$ e $X_1 X_2$ , nem é grande o suficiente para levantar sinalizadores.

Se tentássemos detectar a heterocedasticidade no modelo quadrático (o primeiro), ficaríamos desapontados:

Diagnostic plot

Na suavidade deste gráfico de dispersão, há sempre uma sugestão tão fraca que os tamanhos dos resíduos aumentam com $|X_1|$ , mas ninguém levaria essa dica a sério.

whuber
fonte

9

O que faz mais sentido com base na fonte dos dados?

Não podemos responder a esta pergunta para você, o computador não pode responder a esta pergunta para você. A razão pela qual ainda precisamos de estatísticos em vez de apenas programas estatísticos é por causa de perguntas como essa. A estatística é mais do que apenas analisar os números, é entender a questão e a fonte dos dados e ser capaz de tomar decisões com base na ciência, no histórico e em outras informações fora dos dados que o computador analisa. Seu professor provavelmente espera que você considere isso como parte da tarefa. Se eu tivesse designado um problema como este (e já o fiz antes), estaria mais interessado na justificativa de sua resposta do que a que você realmente escolheu.

Provavelmente está além da sua classe atual, mas uma abordagem, se não houver uma razão científica clara para preferir um modelo a outro, é a média do modelo, você se encaixa nos dois modelos (e talvez também em vários outros modelos) e calcula a média das previsões. (geralmente ponderada pela qualidade do ajuste dos diferentes modelos).

Outra opção, quando possível, é coletar mais dados e, se possível, escolher os valores x para que fique mais claro quais são os efeitos não lineares versus efeitos de interação.

Existem algumas ferramentas para comparar o ajuste de modelos não aninhados (AIC, BIC etc.), mas, nesse caso, eles provavelmente não mostrarão diferença suficiente para anular a compreensão de onde os dados vêm e o que faz mais sentido.

Greg Snow
fonte

1

Outra possibilidade, além da @ Greg's, é incluir os dois termos, mesmo que um não seja significativo. Incluir apenas termos estatisticamente significativos não é uma lei do universo.

Peter Flom - Restabelece Monica
fonte

Obrigado Peter & @Greg. Acho que, nesta fase dos meus estudos, estou procurando respostas absolutas para perguntas que precisam de pelo menos algum raciocínio qualitativo. Como a adição do termo quadrático ou do termo de interação 'fixou' o gráfico de resíduos versus preditor, eu não tinha certeza de qual deles deveria ser incluído. O que me surpreendeu é que a inclusão de um termo quadrático tornou o termo de interação não significativo. Eu pensaria que, se houver uma interação, seria significativo, independentemente de um termo quadrático ter sido incluído ou não.

precisa saber é o seguinte

11

Hi @TalBashan Um famoso estatístico, Donald Cox, disse uma vez que "não há perguntas estatísticas de rotina, apenas rotinas estatísticas questionáveis"

Peter Flom - Reintegrar Monica

@PeterFlom Talvez você queira dizer Sir David Cox ??

Michael R. Chernick

Opa. Sim, David, não Donald. Desculpe.

Peter Flom - Restabelece Monica

O termo quadrático ou de interação é significativo isoladamente, mas nenhum dos dois está junto

Respostas:

Sinopse

Análise

Example