Pressupostos para derivar o estimador OLS

14

Alguém pode explicar brevemente para mim, por que cada uma das seis suposições é necessária para calcular o estimador de OLS? Descobri apenas sobre multicolinearidade - que, se existir, não podemos inverter a matriz (X'X) e, por sua vez, estimar o estimador geral. E os outros (por exemplo, linearidade, zero de erros médios etc.)?

Ieva
fonte
1
Você está procurando uma explicação conceitual ou precisa de uma demonstração matemática?
gung - Restabelece Monica
4
Mínimos quadrados comuns é um procedimento numérico, você não precisa de muita suposição para calculá- lo (além da invertibilidade). Os pressupostos são necessários para justificar a inferência baseada nele, ver a minha resposta ontem: stats.stackexchange.com/questions/148803/...
b Kjetil Halvorsen
1
Exatamente a quais "seis suposições" você se refere? Você menciona apenas três.
whuber
Refiro-me a 1) linearidade 2) ausência de multicolinearidade 3) erros médios nulos 4) erros esféricos (homoscedasticidade e não autocorrelação) 5) regressores não estocásticos e 6) distribuição normal. Então, como entendi pela resposta abaixo, apenas os três primeiros são necessários para derivar o estimador e outros são necessários apenas para garantir que o estimador seja AZUL?
Ieva

Respostas:

23

Você sempre pode calcular o estimador OLS, além do caso em que possui multicolinearidade perfeita. Nesse caso, você tem uma dependência multilinear perfeita em sua matriz X. Conseqüentemente, a suposição de classificação completa não é cumprida e você não pode calcular o estimador OLS, devido a problemas de invertibilidade.

Tecnicamente, você não precisa das outras suposições do OLS para calcular o estimador do OLS. No entanto, de acordo com o teorema de Gauss-Markov, você precisa cumprir a suposição OLS (suposições clrm) para que seu estimador seja AZUL.

Você pode encontrar uma extensa discussão sobre o teorema de Gauss-Markov e sua derivação matemática aqui:

http://economictheoryblog.com/2015/02/26/markov_theorem/

Além disso, se você estiver procurando uma visão geral da suposição de OLS, ou seja, quantas existem, o que elas exigem e o que acontece se você violar a única suposição de OLS, pode encontrar uma discussão elaborada aqui:

http://economictheoryblog.com/2015/04/01/ols_assumptions/

Espero que ajude, felicidades!

Simon Degonda
fonte
14

O seguinte é baseado em seções transversais simples, para séries temporais e painéis é um pouco diferente.

  1. Na população e, portanto, na amostra, o modelo pode ser escrito como: Essa é a suposição de linearidade, que às vezes é mal compreendida. O modelo deve ser linear nos parâmetros - a saber, aβk. Você é livre para fazer o que quiser com oxisi. Logs, quadrados etc. Se esse não for o caso, o OLS não pode ser estimado pelo modelo - você precisa de algum outro estimador não linear.
    Y=β0+β1x1++βkxk+u=Xβ+u
    βkxi
  2. Uma amostra aleatória (para seções transversais) Isso é necessário para inferência e propriedades da amostra. É um tanto irrelevante para a mecânica pura do OLS.
  3. Sem colinearidade perfeita Isso significa que não pode haver relação perfeita entre . Essa é a suposição que garante que ( X X ) não é singular, de modo que ( X X ) - 1 existe.xi(XX)(XX)1
  4. Média condicional zero: . Isso significa que você especificou corretamente o modelo de forma que: não haja variáveis ​​omitidas e a forma funcional estimada esteja correta em relação ao modelo de população (desconhecido). Essa é sempre a suposição problemática do OLS, já que não há como saber se ele é realmente válido ou não.E(u|X)=0
  5. A variação do termo erros é constante, condicionada à toda : V a r ( u | X ) = σ 2 Novamente, isto não significa nada para a mecânica da OLS, mas garantir que os habituais erros padrão são válidos.XiVar(u|X)=σ2
  6. Normalidade; o termo de erros u é independente do e segue u N ( 0 , σ 2 ) . Novamente, isso é irrelevante para a mecânica do OLS, mas garante que a distribuição amostral do β k seja normal, ^ β kN ( β k , V a r ( ^ β k ) ) .XiuN(0,σ2)βkβk^N(βk,Var(βk^))

Agora, para as implicações.

  1. Sob 1 - 6 (as premissas clássicas do modelo linear), o OLS é AZUL (melhor estimador imparcial linear), melhor no sentido de menor variância. Também é eficiente entre todos os estimadores lineares, bem como todos os estimadores que usam alguma função do x. Mais importante, de 1 a 6, o OLS também é o estimador imparcial de variância mínima. Isso significa que entre todos os estimadores imparciais (e não apenas o linear), o OLS tem a menor variação. OLS também é consistente.

  2. Sob 1 - 5 (as suposições de Gauss-Markov), o OLS é AZUL e eficiente (como descrito acima).

  3. Sob 1 - 4, o OLS é imparcial e consistente.

Na verdade, o OLS também é consistente, sob uma suposição mais fraca do que saber: ( 1 ) E ( u ) = 0 e ( 2 ) C o v ( x j , u ) = 0 . A diferença das suposições 4 é que, sob essa suposição, você não precisa definir perfeitamente a relação funcional.(4)(1) E(u)=0(2) Cov(xj,u)=0

Repmat
fonte
Eu acho que você pinta uma imagem muito escura sobre a condição média zero. Se houvesse um viés, minimizar a soma dos desvios ao quadrado não seria a coisa mais apropriada a fazer, mas por outro lado, você pode capturar o viés mudando a equação de regressão (absorvendo o viés em ) e, em seguida, você não tem média 0. Em outras palavras, 4 é tanto impossível verificar e fácil de ignorar. β0
precisa saber é o seguinte
Sinto muito, mas não concordo. Ou talvez eu apenas esteja entendendo mal você? Você poderia eloborar ou dar uma referência.
Repmat
Não estou falando sobre estimativa intencionalmente distorcida (como regressão de cume), na qual acredito que o OP não estava interessado. Estou falando de um modelo da forma em que --- por algum motivo estranho --- o residual ε tem significativo ct 0 . Nesse caso, é fácil fazer uma transformação formal em y = α + β 0 + β 1 x 1 + +y=β0+β1x1++βxxn+ϵϵα0 , onde a média de η é zero. y=α+β0+β1x1++βxxn+ηη
User3697176
@ user3697176 O que você escreve não está correto. Acabei de publicar uma resposta para explicar o porquê.
Alecos Papadopoulos
Se a suposição 1 não for atendida, ainda não podemos usar o OLS para estimar a covariância da população (mesmo sabendo que não há relação linear)?
máximo
7

Um comentário em outra pergunta levantou dúvidas sobre a importância da condição , argumentando que ela pode ser corrigida pela inclusão de um termo constante na especificação de regressão e, portanto, "ela pode ser facilmente ignorada".E(uX)=0

Isto não é verdade. A inclusão de um termo constante na regressão absorverá a média condicional possivelmente diferente de zero do erro, se assumirmos que essa média condicional já é uma constante e não uma função dos regressores . Esta é a suposição crucial que deve ser feita independentemente de incluirmos um termo constante ou não:

E(uX)=const.

Se este detém, em seguida, a média diferente de zero se torna um incômodo que pode simplesmente resolver através da inclusão de um termo constante.

Mas se isso não for válido (ou seja, se a média condicional não for uma constante zero ou não nula ), a inclusão do termo constante não resolverá o problema: o que "absorverá" nesse caso é uma magnitude isso depende da amostra específica e das realizações dos regressores. Na realidade, o coeficiente desconhecido associado à série de unidades não é realmente uma constante, mas variável, dependendo dos regressores através da média condicional não constante do termo de erro.

O que isso implica? Para simplificar, assumir o caso mais simples, em que ( i indexa as observações) mas que E ( u i | x i ) = h ( x i ) . Ou seja, que o termo de erro é de média-independente das variáveis explicativas, exceto de seus queridos contemporâneas (em X nós não incluem uma série de ones).E(uiXi)=0iE(uixi)=h(xi)X

Suponha que especificamos a regressão com a inclusão de um termo constante (um regressor de uma série de um).

y=a+Xβ+ε

e notação de compactação

y=Zγ+ε

onde , Z = [ 1 : X ] , γ = ( um , p ) ' , ε = u - um .a=(a,a,a...)Z=[1:X]γ=(a,β)ε=ua

Então o estimador OLS será

γ^=γ+(ZZ)1Zε

Para imparcialidade , precisamos de . MasE[εZ]=0

E[εixi]=E[uiaxi]=h(xi)a

que não pode ser zero para todos os , pois examinamos o caso em que h ( x i ) não é uma função constante. entãoih(xi)

E[εZ]0E(γ^)γ

e

Se , então mesmo que incluem um termo constante na regressão, os OLS estimador não vai ser imparcial , significando também que o resultado de Gauss-Markov em eficiência é perdidoE(uixi)=h(xi)h(xj)=E(ujxj) .

Além disso, o termo de erro tem uma média diferente para cada i , e também uma variação diferente (ou seja, é condicionalmente heterocedástico). Portanto, sua distribuição condicional nos regressores difere entre as observações i . εii

Mas isso significa que, mesmo que o termo de erro é assumida normal, então a distribuição do erro de amostragem γ - γ será normal, mas não mormal de média zero, e com viés desconhecido. E a variação será diferente. entãouiγ^γ

E(uixi)=h(xi)h(xj)=E(ujxj)

Em outras palavras, as propriedades "amostra finita" desapareceram.

Ficamos apenas com a opção de recorrer a inferência assintoticamente válida , para a qual teremos que fazer suposições adicionais.

Em termos simples, a estrita exogeneidade não pode ser "facilmente ignorada" .

Alecos Papadopoulos
fonte
Não tenho muita certeza de entender isso. Não presumir que a média não seja uma função dos regressores equivalente a assumir homoscedasticidade?
Batman
@Batman A que parte do meu post você está se referindo?
Alecos Papadopoulos
Quando você diz "A inclusão de um termo constante na regressão absorverá a média condicional possivelmente diferente de zero do termo de erro se assumirmos que essa média condicional já é uma constante e não uma função dos regressores. Essa é a suposição crucial isso deve ser feito independentemente de incluirmos um termo constante ou não ". Não está assumindo que a média condicional não é uma função dos regressores exatamente o que estamos assumindo quando assumimos a homoscedasticidade?
Batman
E(uj2x)E(ux)=const.E(u2x)=g(x)
Alecos Papadopoulos