Quais são as consequências de se ter uma variação não constante nos termos de erro na regressão linear?

9

Uma das premissas da regressão linear é que deve haver uma variação constante nos termos do erro e que os intervalos de confiança e testes de hipóteses associados ao modelo se baseiam nessa suposição. O que exatamente acontece quando os termos do erro não apresentam uma variação constante?

Kira
fonte

Respostas:

15

As consequências da heterocedasticidade são:

  1. O estimador de mínimos quadrados ordinários (OLS) ainda é consistente, mas não é mais eficiente .b^=(XX)Xy

  2. A estimativa que não é mais um estimador consistente para a matriz de covariância do seu estimador . Pode ser enviesado e inconsistente. E, na prática, pode subestimar substancialmente a variação.Var^(b)=(XX)1σ^2σ^2=1nkeeb^

O ponto (1) pode não ser um problema importante; as pessoas geralmente usam o estimador OLS comum de qualquer maneira. Mas o ponto (2) deve ser abordado. O que fazer?

Você precisa de erros padrão consistentes em heterocedasticidade . A abordagem padrão é basear-se em suposições de grandes amostras, resultados assintóticos e estimar a variação de usando:b

SS=1

Var^(b)=1n(XXn)1S(XXn)1
que é estimado como .SS=1nki(xiei)(xiei)

Isso fornece erros padrão consistentes em heterocedasticidade. Eles também são conhecidos como erros padrão do Huber-White, erros padrão robustos, estimador "sanduíche", etc ... Qualquer pacote básico de estatísticas padrão tem uma opção para erros padrão robustos. Use-o!

Alguns comentários adicionais (atualização)

Se a heterocedasticidade for grande o suficiente, a estimativa OLS regular pode ter grandes problemas práticos. Embora ainda seja um estimador consistente, você pode ter pequenos problemas de amostra, onde toda a sua estimativa é conduzida por algumas observações de alta variação. (Isto é o que @ seanv507 está fazendo alusão nos comentários). O estimador OLS é ineficiente, pois está dando mais peso às observações de alta variação do que o ideal. A estimativa pode ser extremamente barulhenta.

Um problema ao tentar corrigir a ineficiência é que você provavelmente também não conhece a matriz de covariância para os termos de erro, portanto, usar algo como GLS pode piorar ainda mais as coisas se sua estimativa do termo de erro matriz de covariância for lixo.

Além disso, os erros padrão de Huber-White que forneci acima podem ter grandes problemas em pequenas amostras. Há uma longa literatura sobre esse tópico. Por exemplo. consulte Imbens e Kolesar (2016), "Erros padrão robustos em pequenas amostras: alguns conselhos práticos".

Orientação para estudos adicionais:

Se for um auto-estudo, a próxima coisa prática a considerar são os erros padrão em cluster. Isso corrige a correlação arbitrária dentro dos clusters.

Matthew Gunn
fonte
11
Matthew - Eu acho que problemas mais práticos esclareceriam o ponto (1). por exemplo, o estimador não seria "tendencioso" para as regiões com maior variação? - o que seria um problema maior se essas regiões estivessem longe da média, causando alta alavancagem.
seanv507
3
@ seanv507 heteroskedasticity não influencia a estimativa do OLS. O que eu acho que você está se referindo é ineficiência. Ao ponderar as observações de alta variância e as de baixa variância igualmente, o estimador OLS tem uma variação maior do que é teoricamente possível com algo como ponderação de variância inversa . Se você deseja usar suas estimativas de na fase de estimativa (isto é, para estimar ) depende de quanto você acredita que conhece . b σ 2 iσi2bσi2
Matthew Gunn
11
Matthew, eu sei que não está apresentando viés (peço desculpas [por você e pelo OP] por usar o termo entre aspas :) Eu não conseguia pensar no termo apropriado). Mas estou tentando extrair as implicações práticas (e sugerindo que o OP queira entendê-las) - quando / por que o ponto (1) não é uma questão importante. Você não concorda que o efeito é que depende mais da região de alta variação do que você poderia esperar / desejar intuitivamente? regiões de variação). b
seanv507
@ seanv507 fique à vontade para adicionar sua própria resposta!
Matthew Gunn
Em vez de usar erros padrão robustos de heterocedasticidade (que Ed Leamer em seu artigo de 2010 "Tantalus a caminho da Assintopia" chama de lavagem de roupas brancas ), também se poderia tentar corrigir as estimativas pontuais (juntamente com a estimativa de variância) da heterocedasticidade por WLS. Vale a pena mencionar isso em sua resposta.
Richard Hardy
3

Bem, a resposta curta é basicamente o seu modelo está errado, ou seja

  • A fim de que os mínimos quadrados para ser o B est L inear L nbiased E stimator a variância constante dos termos de erro é assumido.
  • As suposições de Gauss-Markov - se cumpridas - garantem que o estimador de mínimos quadrados para os coeficientes seja imparcial e tenha uma variação mínima entre todos os estimadores lineares imparciais.β

Portanto, no caso de heterocedasticidade, ocorrem problemas com a estimativa da matriz de variância-covariância, que levam a erros padrão errados dos coeficientes, o que, por sua vez, leva a estatísticas t e valores p errados. Resumidamente, se os termos de erro não tiverem variação constante, os mínimos quadrados comuns não serão a maneira mais eficiente de estimar. Dê uma olhada nesta questão relacionada.

davidski
fonte
0

A "heterocedasticidade" dificulta a estimativa do verdadeiro desvio padrão dos erros de previsão. Isso pode levar a intervalos de confiança muito grandes ou muito estreitos (em particular, serão muito estreitos para previsões fora da amostra, se a variação dos erros aumentar com o tempo).

Além disso, o modelo de regressão pode se concentrar muito em um subconjunto de dados.

Boa referência: Testando suposições de regressão linear

oW_
fonte