Assuma a seguinte relação linear: , onde é a variável dependente, uma única variável independente e o termo do erro.
De acordo com Stock & Watson (Introdução à Econometria; Capítulo 4 ), a terceira suposição de mínimos quadrados é que os quartos momentos de e são diferentes de zero e finitos .
Eu tenho três perguntas:
Não compreendo completamente o papel dessa suposição. O OLS é tendencioso e inconsistente se essa suposição não se mantiver ou precisamos dessa suposição para inferência?
Stock e Watson escrevem "essa suposição limita a probabilidade de desenhar uma observação com valores extremamente grandes de ou ". No entanto, minha intuição é que essa suposição é extrema. Estamos em apuros se tivermos grandes discrepâncias (tais que os quartos momentos sejam grandes), mas se esses valores ainda forem finitos? By the way: Qual é a definição subjacente um outlier?
Podemos reformular isso da seguinte maneira: "A curtose de e é diferente de zero e finita?"
fonte
Respostas:
Você não precisa de suposições nos 4º momentos para consistência do estimador OLS, mas precisa de suposições em momentos mais altos de e ϵ para normalidade assintótica e para estimar consistentemente qual é a matriz de covariância assintótica.x ϵ
Em certo sentido, porém, esse é um ponto matemático, técnico, e não prático. Para que o OLS funcione bem em amostras finitas, em algum sentido, é necessário mais do que as suposições mínimas necessárias para obter consistência ou normalidade assintótica como .n → ∞
Condições suficientes para consistência:
Se você tiver a equação de regressão:
O estimador OLS pode ser escrito como: b =β+( X ' Xb^
Por questões de consistência , você precisa aplicar a Lei dos Grandes Números de Kolmogorov ou, no caso de séries temporais com dependência serial, algo como o Teorema Ergódico de Karlin e Taylor para que:
Outras premissas necessárias são:
Então e você recebe b p →p(X′Xn)−1(X′ϵn)→p0 b^→pβ
Se você deseja que o teorema do limite central se aplique , precisará de suposições em momentos superiores, por exemplo, onde . O teorema do limite central é o que fornece a normalidade assintótica de e permite que você fale sobre erros padrão. Para que o segundo momento exista, você precisa do quarto momento de e para existir. Você quer argumentar que em queg i = x i ε i b E [ g i g » i ] x ε √E[gig′i] gi=xiϵi b^ E[gig′i] x ϵ n−−√(1n∑ix′iϵi)→dN(0,Σ) Σ=E[xix′iϵ2i] . Para que isso funcione, precisa ser finito.Σ
Uma boa discussão (que motivou este post) é apresentada na Econometria de Hayashi . (Veja também a p. 149 para o quarto momento e estimando a matriz de covariância.)
Discussão:
Esses requisitos no quarto momento provavelmente são um ponto técnico e não prático. Você provavelmente não encontrará distribuições patológicas onde isso é um problema nos dados do dia a dia? É mais comum ou outras suposições do OLS darem errado.
Uma pergunta diferente, sem dúvida respondida em outro lugar no Stackexchange, é o tamanho de uma amostra que você precisa para amostras finitas para se aproximar dos resultados assintóticos. Há um certo sentido em que discrepâncias fantásticas levam a uma convergência lenta. Por exemplo, tente estimar a média de uma distribuição lognormal com uma variação muito alta. A média da amostra é um estimador consistente e imparcial da média da população, mas nesse caso log-normal com excesso excessivo de curtose, etc.
Finito x infinito é uma distinção extremamente importante em matemática. Esse não é o problema que você encontra nas estatísticas diárias. Problemas práticos são mais na categoria pequena vs. grande. A variação, curtose, etc ... é pequena o suficiente para que eu possa obter estimativas razoáveis, considerando o tamanho da minha amostra?
Exemplo patológico em que o estimador OLS é consistente, mas não assintoticamente normal
Considerar:
A distribuição de não é normal, as caudas são muito pesadas. Mas se você aumentar os graus de liberdade para 3, para que exista o segundo momento de , o limite central se aplicará e você obterá: εib^ ϵi
Código para gerá-lo:
fonte
Essa é uma suposição suficiente, mas não mínima [1]. O OLS não é tendencioso nessas condições, é apenas inconsistente. As propriedades assintóticas do OLS quebram quando pode ter uma influência extremamente grande e / ou se você pode obter resíduos extremamente grandes. Você pode não ter encontrado uma apresentação formal do teorema do limite central de Lindeberg Feller, mas é isso que eles estão abordando aqui com as condições do quarto momento, e a condição de Lindeberg nos diz basicamente a mesma coisa: nenhum ponto de influência excessivo, nenhuma alavancagem alta demais pontos [2]X
Esses fundamentos teóricos da estatística causam muita confusão quando resumidos em aplicações práticas. Não há definição de um outlier, é um conceito intuitivo. Para entendê-lo, a observação teria que ser um alto ponto de alavancagem ou alto ponto de influência, por exemplo, aquele para o qual o diagnóstico de exclusão (DF beta) é muito grande ou para o qual a distância de Mahalanobis nos preditores é grande (em estatísticas univariadas isso é apenas uma pontuação Z). Mas voltemos às questões práticas: se eu fizer uma pesquisa aleatória com as pessoas e sua renda familiar, e de 100 pessoas, 1 das pessoas que eu amostrar for milionária, meu melhor palpite é que os milionários são representativos de 1% da população . Em uma palestra bioestatística, esses princípios são discutidos e enfatizados que qualquer ferramenta de diagnóstico é essencialmente exploratória [3].não "a análise que exclui o outlier é a que eu acredito", é "remover um ponto mudou completamente minha análise".
A curtose é uma quantidade escalada que depende do segundo momento de uma distribuição, mas a suposição de variação finita e diferente de zero para esses valores é tácita, pois é impossível que essa propriedade se mantenha no quarto momento, mas não no segundo. Então, basicamente sim, mas no geral eu nunca inspecionei nem a curtose nem o quarto momento. Não acho que sejam uma medida prática ou intuitiva. Atualmente, quando um histograma ou gráfico de dispersão é produzido pelo estalar dos dedos, cabe a nós usar estatísticas qualitativas de diagnóstico gráfico, inspecionando esses gráficos.
[1] /math/79773/how-does-one-prove-that-lindeberg-condition-is-satisfied
[2] http://projecteuclid.org/download/pdf_1/euclid.ss/1177013818
[3] http://faculty.washington.edu/semerson/b517_2012/b517L03-2012-10-03/b517L03-2012-10-03.html
fonte