Regressão linear simples, valores-p e AIC

Sei que esse tópico foi abordado várias vezes antes, por exemplo , aqui , mas ainda não tenho certeza da melhor maneira de interpretar minha saída de regressão.

Eu tenho um conjunto de dados muito simples, constituído por uma coluna de valores x e uma coluna de valores y , divididos em dois grupos de acordo com a localização (loc). Os pontos são assim

Um colega levantou a hipótese de que deveríamos ajustar regressões lineares simples e separadas para cada grupo, o que eu fiz usando y ~ x * C(loc). A saída é mostrada abaixo.

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.873
Model:                            OLS   Adj. R-squared:                  0.866
Method:                 Least Squares   F-statistic:                     139.2
Date:                Mon, 13 Jun 2016   Prob (F-statistic):           3.05e-27
Time:                        14:18:50   Log-Likelihood:                -27.981
No. Observations:                  65   AIC:                             63.96
Df Residuals:                      61   BIC:                             72.66
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
=================================================================================
                    coef    std err          t      P>|t|      [95.0% Conf. Int.]
---------------------------------------------------------------------------------
Intercept         3.8000      1.784      2.129      0.037         0.232     7.368
C(loc)[T.N]      -0.4921      1.948     -0.253      0.801        -4.388     3.404
x                -0.6466      0.230     -2.807      0.007        -1.107    -0.186
x:C(loc)[T.N]     0.2719      0.257      1.057      0.295        -0.242     0.786
==============================================================================
Omnibus:                       22.788   Durbin-Watson:                   2.552
Prob(Omnibus):                  0.000   Jarque-Bera (JB):              121.307
Skew:                           0.629   Prob(JB):                     4.56e-27
Kurtosis:                       9.573   Cond. No.                         467.
==============================================================================

Observando os valores-p dos coeficientes, a variável dummy para localização e o termo de interação não são significativamente diferentes de zero. Nesse caso, meu modelo de regressão reduz-se essencialmente à linha vermelha no gráfico acima. Para mim, isso sugere que ajustar linhas separadas aos dois grupos pode ser um erro, e um modelo melhor pode ser uma única linha de regressão para todo o conjunto de dados, como mostrado abaixo.

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.593
Model:                            OLS   Adj. R-squared:                  0.587
Method:                 Least Squares   F-statistic:                     91.93
Date:                Mon, 13 Jun 2016   Prob (F-statistic):           6.29e-14
Time:                        14:24:50   Log-Likelihood:                -65.687
No. Observations:                  65   AIC:                             135.4
Df Residuals:                      63   BIC:                             139.7
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [95.0% Conf. Int.]
------------------------------------------------------------------------------
Intercept      8.9278      0.935      9.550      0.000         7.060    10.796
x             -1.2446      0.130     -9.588      0.000        -1.504    -0.985
==============================================================================
Omnibus:                        0.112   Durbin-Watson:                   1.151
Prob(Omnibus):                  0.945   Jarque-Bera (JB):                0.006
Skew:                           0.018   Prob(JB):                        0.997
Kurtosis:                       2.972   Cond. No.                         81.9
==============================================================================

Isso parece bom para mim visualmente, e os valores de p para todos os coeficientes agora são significativos. No entanto, a AIC para o segundo modelo é muito maior do que para o primeiro.

Sei que a seleção de modelos é mais do que apenas valores-p ou apenas o AIC, mas não tenho certeza do que fazer com isso. Alguém pode oferecer conselhos práticos sobre como interpretar essa saída e escolher um modelo apropriado, por favor ?

A meu ver, a única linha de regressão parece boa (embora eu perceba que nenhuma delas é especialmente boa), mas parece que há pelo menos alguma justificativa para ajustar modelos separados (?).

Obrigado!

Editado em resposta a comentários

@Cagdas Ozgenc

O modelo de duas linhas foi ajustado usando os modelos estatísticos do Python e o código a seguir

reg = sm.ols(formula='y ~ x * C(loc)', data=df).fit()

Pelo que entendi, isso é essencialmente apenas uma abreviação para um modelo como este

y = β_{0 0} + β_{1} x + β_{2} eu + β_{3} x eu

$y = \beta_0 + \beta_1 x + \beta_2 l + \beta_3 x l$

$l$ $loc=D$ $l=0$

y = β_{0 0} + β_{1} x

$y = \beta_0 + \beta_1 x$

$loc=N$ $l=1$

y = (β_{0 0} + β_{2}) + (β_{1} + β_{3}) x

$y = (\beta_0 + \beta_2) + (\beta_1 +\beta_3) x$

que é a linha azul no gráfico acima. O AIC para este modelo é relatado automaticamente no resumo do modelo de estatísticas. Para o modelo de uma linha, eu simplesmente usei

reg = ols(formula='y ~ x', data=df).fit()

Eu acho que está tudo bem?

@ user2864849

$loc=D$

Editar 2

Apenas para completar, eis os gráficos residuais sugeridos por @whuber. O modelo de duas linhas realmente parece muito melhor deste ponto de vista.

Modelo de duas linhas

Modelo de uma linha

Obrigado a todos!

regression p-value least-squares aic JamesS
fonte

Importa-se de explicar por que a única linha de regressão parece melhor para você? Para mim, vejo dois grupos que são linearmente separáveis e a categoria N tem muito pouca variação. Você acha que o primeiro é pior por causa das faixas de confiança sobrepostas?

Marsenau 13/06/16

x

$x$

R^{2}

$R^2$

Os dois modelos do @StudentT usam todos os pontos de dados. O modelo simples usa menos variáveis independentes. Um ponto de dados é a tupla inteira.

Cagdas Ozgenc

Se você quiser ter uma abordagem baseada hipótese-teste para seleção de modelos, você não deve supor que porque dois preditores são cada insignificante remoção tanto do modelo terá pouca importância. O teste F para significância conjunta será o apropriado.

Scortchi - Restabelecer Monica

Eu acho que você fez bem em desafiar a noção de que valores p e valores AIC sozinhos podem determinar a viabilidade de um modelo. Também estou feliz que você tenha escolhido compartilhá-lo aqui.

Como você demonstrou, existem várias compensações sendo feitas ao considerar vários termos e possivelmente a interação deles. Portanto, uma pergunta a ter em mente é o objetivo do modelo. Se você está encarregado de determinar o efeito da localização em y, então você deve manter localização no modelo, independentemente de quão fraco o p-valor é. Um resultado nulo é, por si só, informações significativas nesse caso.

À primeira vista, parece claro que a Dlocalização implica uma maior y. Mas há apenas um intervalo estreito xpara o qual você possui valores De Nvalores para a localização. A regeneração dos coeficientes do modelo para esse pequeno intervalo provavelmente produzirá um erro padrão muito maior.

Mas talvez você não se importe com a localização além da capacidade de previsão y. Os dados que você tinha e o código de cores em seu enredo revelaram um padrão interessante. Nesse caso, você pode estar mais interessado na previsibilidade do modelo do que na interpretabilidade do seu coeficiente favorito. Suspeito que os valores da AIC sejam mais úteis nesse caso. Ainda não estou familiarizado com a AIC; mas desconfio que isso possa estar penalizando o termo misto, porque há apenas um pequeno intervalo no qual você pode alterar o local para fixo x. Há muito pouco que o local explique que xainda não explique.

pglezen
fonte

Regressão linear simples, valores-p e AIC

Respostas: