O que acontece quando eu incluo uma variável ao quadrado na minha regressão?

20

Começo com minha regressão OLS:

y=β0 0+β1x1+β2D+ε
onde D é uma variável dummy, as estimativas tornam-se diferentes de zero com um baixo valor de p. Em seguida, pré-formao um teste de Ramsey RESET e descobri que tenho alguma classificação equivocada da equação, portanto incluo ao quadrado x:
y=β0+β1x1+β2x12+β3D+ε
  1. O que o termo ao quadrado explica? (Aumento não linear em Y?)
  2. Ao fazer isso, minha estimativa D não varia mais de zero, com um alto valor de p. Como interpreto o termo quadrado na minha equação (em geral)?

Editar: Melhorando a pergunta.

seini
fonte
1
Razão provável: e D parece explicar a mesma variablility em yx12Dy
steadyfish
3
Uma coisa que pode ajudar é centralizar antes de criar seu termo ao quadrado (veja aqui ). Quanto à interpretação do seu termo ao quadrado, eu argumento que é melhor interpretar β 1 x 1 + β 2 xx como um todo(vejaaqui). Outra questão é que poderá ser necessário uma interacção, que a adição de meiosβ4x1D+β5x 2 1 D. β1x1+β2x12 β4x1D+β5x12D
gung - Restabelece Monica
Eu não acho que seja realmente uma duplicata dessa pergunta; a solução é diferente (variáveis de centralização funciona aqui, mas não há, se não me engano)
Peter Flom - Reintegrar Monica
@ Peter, eu interpreto essa pergunta como um subconjunto de "Por que quando adiciono uma variável ao meu modelo, o efeito estimar / valor para algumas outras alterações de variáveis?", Abordado na outra pergunta. Entre as respostas para essas perguntas estão a colinearidade (que o gung alude em sua resposta a essa pergunta) / o conteúdo se sobrepõe entre os preditores (ou seja, entre D e ( x 1 , x 2 1 ) , que eu suspeito ser o culpado neste caso). . A mesma lógica se aplica aqui. Não sei ao certo qual é a controvérsia, mas tudo bem se você e outras pessoas discordarem. Felicidades. pD(x1,x12)
Macro

Respostas:

21

Bem, primeiro, a variável dummy é interpretada como uma mudança na interceptação. Ou seja, seu coeficiente fornece a diferença na interceptação quando D = 1 , ou seja, quando D = 1 , a interceptação é β 0 + β 3 . Essa interpretação não muda ao adicionar o quadrado x 1 .β3D=1D=1β0 0+β3x1

Agora, o ponto de adicionar um quadrado à série é que você assume que o relacionamento se desvanece em um determinado ponto. Olhando para sua segunda equação

y=β0 0+β1x1+β2x12+β3D+ε

Tomando o derivado wrt obtém-sex1

δyδx1=β1+2β2x1

Resolver esta equação fornece o ponto de virada do relacionamento. Como o usuário 1493368 explicou, isso realmente reflete uma forma inversa de U se e vice-versa. Veja o seguinte exemplo:β1<0 0

y^=1.3+0,42x1-0,32x12+0,14D

A derivada wrt éx1

δyδx1=0,42-20,32x1

A resolução de fornece a vocêx1

δyδx1=0 0x10,66

Esse é o ponto em que o relacionamento tem seu ponto de virada. Você pode dar uma olhada na saída do Wolfram-Alpha para a função acima, para obter uma visualização do seu problema.

Lembre-se, ao interpretar o efeito ceteris paribus de uma mudança em em y , você deve observar a equação:x1y

Δy=(β1+2β2x1)Δx

Ou seja, você não pode interpretar isoladamente, depois de adicionar o regressor ao quadrado x 2 1 !β1x12

Dx1

altabq
fonte
Oi. Se você tivesse vários preditores, deveria usar derivadas parciais ou derivadas totais (diferenciais)?
skan
1
Uma derivada parcial ainda é o caminho certo a seguir. A interpretação de todos os coeficientes é ceteris paribus , ou seja, mantendo todo o resto constante. É exatamente o que você está fazendo quando utiliza uma derivada parcial.
Altabq 26/08/16
Veja esta página da UCLA IDRE para complementar a ótima resposta da @ altabq.
Cyrille
19

Um bom exemplo de incluir quadrado de variável vem da economia do trabalho. Se você assume ycomo salário (ou log de salário) e xcomo idade, incluir x^2significa que está testando a relação quadrática entre uma idade e um salário. O salário aumenta com a idade, à medida que as pessoas se tornam mais experientes, mas com a idade mais alta, o salário começa a aumentar a uma taxa decrescente (as pessoas ficam mais velhas e não serão tão saudáveis ​​para trabalhar como antes) e, em algum momento, o salário não aumenta ( atinge o nível salarial ideal) e depois começa a cair (eles se aposentam e seus ganhos começam a diminuir). Portanto, a relação entre salário e idade é invertida em forma de U (efeito do ciclo de vida). Em geral, para o exemplo mencionado aqui, ageespera-se que o coeficiente seja positivo eage^2negativo. O ponto aqui é que deve haver base teórica / justificativa empírica para incluir o quadrado da variável. A variável dummy, aqui, pode ser pensada como representando o sexo do trabalhador. Você também pode incluir o termo de interação de gênero e idade para examinar se o diferencial de gênero varia de acordo com a idade.

Métricas
fonte