Utilidade do teorema de Frisch-Waugh

15

Devo ensinar o teorema de Frish Waugh em econometria, que não estudei.

Entendi a matemática por trás disso e espero que a idéia também "o coeficiente obtido para um determinado coeficiente de um modelo linear múltiplo seja igual ao coeficiente do modelo de regressão simples se você" eliminar "a influência dos outros regressores". Então a ideia teórica é bem legal. (Se eu totalmente entendi mal, recebo uma correção)

Mas tem alguns usos clássicos / práticos?

EDIT : Aceitei uma resposta, mas ainda estou disposto a ter novas que tragam outros exemplos / aplicações.

Anthony Martin
fonte
4
Um óbvio seria adicionar gráficos variáveis ?
Silverfish
1
A Introdução à Econometria de Dougherty menciona outro exemplo de uso do teorema de Frisch-Waugh-Lovell. Nos primeiros dias da análise econométrica de séries temporais, era bastante comum nos modelos em que as variáveis ​​tinham tendências temporais determinísticas para prejudicar todas elas antes de regredir. Mas, por FWL, você obtém os mesmos coeficientes simplesmente incluindo uma tendência de tempo como um regressor e, além disso, gera erros padrão "corretos", pois reconhece que 1 df foi consumido.
Silverfish
1
Dougherty adverte contra o procedimento, portanto, nesse aspecto, não é um ótimo exemplo, mesmo que seja instrutivo. As variáveis ​​econômicas costumam parecer estacionárias com diferença em vez de estacionárias com tendência, portanto esse tipo de tentativa de prejudicar não funciona e pode resultar em regressões espúrias.
Silverfish
1
@Silverfish: FWL é uma técnica puramente algébrica, então a questão de se extrair uma tendência determinística é "correta", dado que o DGP subjacente é sem dúvida importante, mas não tem relação com o FWL, portanto, nesse sentido, seu exemplo é perfeitamente válido para Os OP questionam sobre as duas maneiras de obter estimativas pontuais.
Christoph Hanck 16/03
2
Eu explorei esse relacionamento em muitos posts, principalmente para fins conceituais e para fornecer exemplos interessantes de fenômenos de regressão. Consulte, entre outros , stats.stackexchange.com/a/46508 , stats.stackexchange.com/a/113207 e stats.stackexchange.com/a/71257 .
whuber

Respostas:

14

Considere o modelo de dados do painel de efeitos fixos, também conhecido como modelo LSDV (Least Squares Dummy Variables).

pode ser calculada aplicando OLS diretamente ao modelo y = X β + D α + ϵ , onde D é umamatriz N T × N de manequins e αbLSDV

y=Xβ+Dα+ϵ,
DNT×Nα representa os efeitos fixos específicos do indivíduo.

Outra maneira de calcular é aplicar a chamada transformação dentro do modelo usual, a fim de obter uma versão menosprezada, ou seja, M [ D ] y = M [ D ] X β + M [ D ] ϵ . Aqui, M [ D ] = I - D ( D D ) - 1 D , a matriz fabricante residual de uma regressão embeuSDV

M[D]y=M[D]Xβ+M[D]ϵ.
M[D]=Eu-D(DD)-1D .D

Pelo teorema Frisch-Waugh-Lovell, os dois são equivalentes, como FWL diz que você pode calcular um subconjunto de coeficientes de regressão de uma regressão ) porβ^

  1. regredindo nos outros regressores (aqui, D ), salvando os resíduos (aqui, o tempo diminuído yyDy ou , porque a regressão em uma constante apenas diminui as variáveis);M[D]y
  2. regredindo o em DXD e salvando os resíduos , eM[D]X
  3. regredir os resíduos para o outro, em H [ D ] X .M[D]yM[D]X

A segunda versão é muito mais amplamente usada, porque os conjuntos de dados de painel típicos podem ter milhares de unidades de painel , de modo que a primeira abordagem exigiria a execução de uma regressão com milhares de regressores, o que não é uma boa ideia numericamente até hoje em dia com rapidez. computadores, como calcular o inverso de ( D : X ) ' ( D : X ) seria muito caro, considerando que rebaixando-tempo y e X é de pouco custo.N(D:X)(D:X)yX

Christoph Hanck
fonte
Muito obrigado, este é o tipo de resposta que eu estava procurando, mesmo que seja um pouco avançado para realmente usá-lo. Portanto, sua resposta está bem comigo, mas eu ficaria feliz se eu tiver outras, devo aceitar a sua?
Anthony Martin
Se ajudou, seria apropriado fazê-lo. Mas aceitar reduzirá suas chances de obter melhores respostas; portanto, você deve esperar antes de aceitar esta. Uma recompensa aumentaria ainda mais suas chances de obter mais respostas - já que não há usuários suficientes no CV que respondam regularmente às perguntas, dada a quantidade de perguntas, mesmo uma única resposta pode levar outros usuários ativos a concluir que as perguntas foram tratadas. (Eu
postei
7

Aqui está uma versão simplificada da minha primeira resposta, que acredito ser menos relevante na prática, mas possivelmente mais fácil de "vender" para uso em sala de aula.

As regressões e y i - ˉ y = K Σ J = 2 β j ( x i j - ˉ x j ) + ~ ε i produzem idêntico β j , . Isso pode ser visto da seguinte forma: take x 1 =

yi=β1+j=2Kβjxij+ϵi
yiy¯=j=2Kβj(xijx¯j)+ϵ~i
β^jj=2,,Kx1=1:=(1,,1)
M1=I1(11)11=I11n,
M1xj=xj1n11xj=xj1x¯j=:xjx¯j.
M1xj , são apenas as variáveis ​​modificadas (a mesma lógica, é claro, se aplica ayEu)
Christoph Hanck
fonte
4

Here is another, more indirect, but I believe interesting one, namely the connection between different approaches to computing the partial autocorrelation coefficient of a stationary time series.

Definition 1

Consider the projection

Y^tμ=α1(m)(Yt1μ)+α2(m)(Yt2μ)++αm(m)(Ytmμ)
The mth partial autocorrelation equals αm(m).

It thus gives the influence of the mth lag on Yt \emph{after controlling for} Yt1,,Ytm+1. Contrast this with ρm, that gives the `raw' correlation of Yt and Ytm.

How do we find the αj(m)? Recall that a fundamental property of a regression of Zt on regressors Xt is that the coefficients are such that regressors and residuals are uncorrelated. In a population regression this condition is then stated in terms of population correlations. Then:

E[Xt(ZtXtα(m))]=0
Solving for α(m) we find the linear projection coefficients
α(m)=[E(XtXt)]1E[XtZt]
Applying this formula to Zt=Ytμ and
Xt=[(Yt1μ),(Yt2μ),,(Ytmμ)]
we have
E(XtXt)=(γ0γ1γm1γ1γ0γm2γm1γm2γ0)
Also,
E(XtZt)=(γ1γm)
Hence,
α(m)=(γ0γ1γm1γ1γ0γm2γm1γm2γ0)1(γ1γm)
The mth partial correlation then is the last element of the vector α(m).

So, we sort of run a multiple regression and find one coefficient of interest while controlling for the others.

Definition 2

The mth partial correlation is the correlation of the prediction error of Yt+m predicted with Yt1,,Ytm+1 with the prediction error of Yt predicted with Yt1,,Ytm+1.

So, we sort of first control for the intermediate lags and then compute the correlation of the residuals.

Christoph Hanck
fonte