Estimando

14

Eu tenho um modelo econômico teórico que é o seguinte,

y=a+b1x1+b2x2+b3x3+u

Então a teoria diz que existem x1 , x2 e x3 fatores para estimar y .

Agora eu tenho os dados reais e preciso estimar b1 , , . O problema é que o conjunto de dados real contém apenas dados para e ; não há dados para . Portanto, o modelo em que posso encaixar é:b2b3x1x2x3

y=a+b1x1+b2x2+u
  • Tudo bem estimar esse modelo?
  • Perco alguma coisa estimando isso?
  • Se eu estimar , , para onde vai o termo ?b1b2b3x3
  • É explicado pelo termo de erro ?u

E gostaríamos de assumir que não está correlacionado com e .x3x1x2

renatia
fonte
Você pode fornecer detalhes sobre seu conjunto de dados, quero dizer, sua variável dependente e variáveis ​​independentes x 1 e x 2 ? yx1x2
Vara
Pense nisso como exemplo hypothethical sem conjunto de dados específico ...
renathy

Respostas:

20

O problema com o qual você precisa se preocupar é chamado de endogeneidade . Mais especificamente, depende se está correlacionado na população com x 1 ou x 2 . Se for, os b j s associados serão enviesados. Isso é porque MQO métodos de regressão forçar os resíduos, u i , para ser não correlacionado com os seus co-variáveis, x j s. No entanto, os resíduos são compostas de alguma aleatoriedade irredutível, ε i , e a variável não observada (mas relevante), x 3 , que por estipulaçãox3x1x2bjuixjεix3está correlacionado com e / ou x 2 . Por outro lado, se ambos x 1 e x 2 são não correlacionadas com x 3 na população, então o seu b s não será influenciada por isso (que pode muito bem ser tendencioso por outra coisa, é claro). Uma maneira pela qual os economistas tentam lidar com esse problema é usando variáveis ​​instrumentais . x1x2 x1x2x3b

Para maior clareza, escrevi uma simulação rápida em R que demonstra que a distribuição amostral de é imparcial / centrada no valor real de β 2 , quando não está correlacionado com x 3 . Na segunda execução, no entanto, observe que x 3 não está correlacionado com x 1 , mas não x 2 . Não por coincidência, b 1 é imparcial, mas b 2 é tendencioso. b2β2x3x3x1x2b1b2

library(MASS)                          # you'll need this package below
N     = 100                            # this is how much data we'll use
beta0 = -71                            # these are the true values of the
beta1 = .84                            # parameters
beta2 = .64
beta3 = .34

############## uncorrelated version

b0VectU = vector(length=10000)         # these will store the parameter
b1VectU = vector(length=10000)         # estimates
b2VectU = vector(length=10000)
set.seed(7508)                         # this makes the simulation reproducible

for(i in 1:10000){                     # we'll do this 10k times
  x1 = rnorm(N)
  x2 = rnorm(N)                        # these variables are uncorrelated
  x3 = rnorm(N)
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
  mod = lm(y~x1+x2)                    # note all 3 variables are relevant
                                       # but the model omits x3
  b0VectU[i] = coef(mod)[1]            # here I'm storing the estimates
  b1VectU[i] = coef(mod)[2]
  b2VectU[i] = coef(mod)[3]
}
mean(b0VectU)  # [1] -71.00005         # all 3 of these are centered on the
mean(b1VectU)  # [1] 0.8399306         # the true values / are unbiased
mean(b2VectU)  # [1] 0.6398391         # e.g., .64 = .64

############## correlated version

r23 = .7                               # this will be the correlation in the
b0VectC = vector(length=10000)         # population between x2 & x3
b1VectC = vector(length=10000)
b2VectC = vector(length=10000)
set.seed(2734)

for(i in 1:10000){
  x1 = rnorm(N)
  X  = mvrnorm(N, mu=c(0,0), Sigma=rbind(c(  1, r23),
                                         c(r23,   1)))
  x2 = X[,1]
  x3 = X[,2]                           # x3 is correated w/ x2, but not x1
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
                                       # once again, all 3 variables are relevant
  mod = lm(y~x1+x2)                    # but the model omits x3
  b0VectC[i] = coef(mod)[1]
  b1VectC[i] = coef(mod)[2]            # we store the estimates again
  b2VectC[i] = coef(mod)[3]
}
mean(b0VectC)  # [1] -70.99916         # the 1st 2 are unbiased
mean(b1VectC)  # [1] 0.8409656         # but the sampling dist of x2 is biased
mean(b2VectC)  # [1] 0.8784184         # .88 not equal to .64
Repor a Monica
fonte
Então, você pode explicar um pouco mais - o que acontece se assumirmos que x3 não está correlacionado com $ x_1 e x2? Então o que acontece se eu estimar y = a + b1x1 + b2x2 + u?
11133 renathy
1
será incorporado nos resíduos de qualquer maneira, massenão for correlacionado na população, seus outros bs não serão influenciados pela ausência de x 3 , mas se não for correlacionado, serão. b3x3bx3
gung - Restabelece Monica
Para declarar isso com mais clareza: Se não estiver correlacionado com x 1 ou x 2 , você estará bem. x3x1x2
gung - Restabelece Monica
Discuto o outro lado dessa questão na minha resposta aqui: adicionar mais variáveis ​​a uma regressão multivariável altera os coeficientes das variáveis ​​existentes?
gung - Restabelece Monica
3

Vamos pensar nisso em termos geométricos. Pense em uma "bola", a superfície de uma bola. É descrito como . Agora, se você possui os valores de x 2 , y 2 , z 2 e tem medidas de r 2 , pode determinar seus coeficientes "a", "b" e "c". (Você pode chamá-lo de elipsóide, mas chamá-lo de bola é mais simples.)r2=ax2+by2+cz2+ϵx2y2z2r2

Se você tiver apenas os termos e y 2 , poderá fazer um círculo. Em vez de definir a superfície de uma bola, você descreverá um círculo preenchido. A equação que você ajustou é r 2a x 2 + b y 2 + ϵ . x2y2r2ax2+by2+ϵ

Você está projetando a "bola", qualquer que seja a forma, na expressão do círculo. Pode ser uma "bola" orientada na diagonal que tem o formato mais parecido com uma agulha de costura e, portanto, os componentes destroem completamente as estimativas dos dois eixos. Pode ser uma bola que parece um m & m quase esmagado, onde os eixos das moedas são "x" e "y", e não há projeção zero. Você não pode saber qual é sem a informação " z ".zz

Esse último parágrafo estava falando sobre um caso de "informação pura" e não explicava o barulho. As medições do mundo real têm o sinal com ruído. O ruído ao longo do perímetro alinhado aos eixos terá um impacto muito mais forte no seu ajuste. Mesmo que você tenha o mesmo número de amostras, você terá mais incerteza nas estimativas de parâmetros. Se for uma equação diferente desse caso simples orientado a eixo linear, as coisas podem ficar " em forma de pêra ". Suas equações atuais são em forma de plano; portanto, em vez de ter um limite (a superfície da bola), os dados z podem percorrer todo o mapa - a projeção pode ser um problema sério.

Está tudo bem em modelar? Essa é uma decisão judicial. Um especialista que entende os detalhes do problema pode responder a isso. Não sei se alguém pode dar uma boa resposta se estiver longe do problema.

Você perde várias coisas boas, incluindo a certeza nas estimativas de parâmetros e a natureza do modelo que está sendo transformado.

b3

EngrStudent - Restabelecer Monica
fonte
f(x,y,z)
Não consigo seguir seu argumento porque não vejo nada que corresponda a um "quadrado preenchido".
whuber
0

As outras respostas, embora não estejam erradas, complicam um pouco a questão.

x3x1x2β3x3

Daniel Ludwinski
fonte