Quais são os perigos de violar a suposição de homoscedasticidade para regressão linear?

28

Como exemplo, considere o ChickWeightconjunto de dados em R. A variação obviamente aumenta com o tempo, portanto, se eu usar uma regressão linear simples como:

m <- lm(weight ~ Time*Diet, data=ChickWeight)

Minhas perguntas:

  1. Quais aspectos do modelo serão questionáveis?
  2. Os problemas estão limitados à extrapolação fora do Timeintervalo?
  3. Quão tolerante é a regressão linear à violação dessa suposição (ou seja, quão heterocedástico deve ser para causar problemas)?
Dan M.
fonte
1
Além do mencionado nas respostas, seus intervalos de previsão também não terão a cobertura correta.
Glen_b -Reinstala Monica

Respostas:

22

O modelo linear (ou "mínimos quadrados ordinários") ainda tem sua propriedade de imparcialidade nesse caso.

Diante da heterocedasticidade em termos de erro, você ainda possui estimativas de parâmetros imparciais, mas perde na matriz de covariância: sua inferência (ou seja, testes de parâmetros) pode estar desativada. A correção comum é usar um método robusto para calcular a matriz de covariância, também conhecida como erros padrão. Qual deles você usa depende do domínio, mas o método de White é um começo.

E, para completar, a correlação serial de termos de erro é pior, pois leva a estimativas de parâmetros tendenciosas.

Dirk Eddelbuettel
fonte
A estimativa robusta de erros padrão (como o método de White) ajuda nos testes / intervalos de confiança nos parâmetros, mas não nos intervalos de previsão?
Kjetil b halvorsen
A covariância do vetor de parâmetro é usada no cálculo de previsões para que seus intervalos de previsão também sejam tendenciosos em geral.
Mustafa S Eisa
Corrigir. Retenções não tendenciosas, a inferência pode estar desativada. Os outros dois paras estão corretos.
Dirk Eddelbuettel 25/09
1
Obrigado por capturá-lo e por ser explícito (em vez de silenciosamente ou "drive-by", voto negativo). Eu era simplesmente um pouco desleixado no meu uso da terminologia. Melhor agora.
Dirk Eddelbuettel 25/09
23

A homocedasticidade é uma das premissas de Gauss Markov necessárias para que o OLS seja o melhor estimador imparcial linear (AZUL).

O Teorema de Gauss-Markov está nos dizendo que o estimador de mínimos quadrados para os coeficientes é imparcial e tem variação mínima entre todos os estimadores lineares imparciais, dado que cumprimos todas as premissas de Gauss-Markov. Você pode encontrar mais informações sobre o teorema de Gauss-Markov, incluindo a prova matemática do teorema aqui . Além disso, você pode encontrar uma lista completa das suposições do OLS, incluindo explicações sobre o que acontece caso sejam violadas aqui .β

Resumindo resumidamente as informações dos sites acima, a heterocedasticidade não introduz um viés nas estimativas de seus coeficientes. No entanto, dada a heterocedasticidade, não é possível estimar adequadamente a matriz de variância-covariância. Portanto, os erros padrão dos coeficientes estão errados. Isso significa que não é possível calcular estatísticas t e valores p e, consequentemente, o teste de hipóteses não é possível. No geral, sob heterocedasticidade, o OLS perde sua eficiência e não é mais AZUL.

No entanto, a heterocedasticidade não é o fim do mundo. Felizmente, corrigir a heterocedasticidade não é difícil. O estimador sanduíche permite estimar erros padrão consistentes para os coeficientes. No entanto, calcular os erros padrão por meio do estimador sanduíche tem um custo. O estimador não é muito eficiente e os erros padrão podem ser muito grandes. Uma maneira de recuperar parte da eficiência é agrupar erros padrão, se possível.

Você pode encontrar informações mais detalhadas sobre esse assunto nos sites que referi acima.

Simon O'Rourke
fonte
12

Ausência de homoscedasticidade pode fornecer estimativas de erro padrão não confiáveis ​​dos parâmetros. As estimativas de parâmetros são imparciais. Mas as estimativas podem não ser eficientes (não AZUIS). Você pode encontrar mais no link a seguir

vinux
fonte
12

É bom lembrar que ter estimadores imparciais não significa que o modelo esteja "certo". Em muitas situações, o critério dos mínimos quadrados para estimativa do coeficiente de regressão dá origem a um modelo que possui (1) coeficientes de regressão que não têm o significado correto ou (2) previsões que são inclinadas para minimizar grandes erros, mas que compensam por ter muitos pequenos erros. Por exemplo, alguns analistas acreditam que, mesmo ao transformar para o modelo se encaixa bem, é válido prever usando OLS porque as estimativas são imparciais. Isso minimizará a soma dos erros ao quadrado, mas particionará os efeitos nolog(Y)Yβs incorretamente e resultar em uma soma não competitiva de erros absolutos. Às vezes, a falta de constância da variação sinaliza um problema de modelagem mais fundamental.

Ao analisar modelos concorrentes (por exemplo, para vs. vs. regressão ordinal), gosto de comparar a precisão preditiva usando medidas que não foram otimizadas por definição pelo processo de ajuste.Ylog(Y)

Frank Harrell
fonte
1

Há boas informações aqui nas outras respostas, principalmente na sua primeira pergunta. Pensei em acrescentar algumas informações complementares sobre suas duas últimas perguntas.

  1. Os problemas associados à heterocedasticidade não se limitam à extrapolação. Como eles envolvem principalmente intervalos de confiança, valores de p e limites de previsão incorretos, eles se aplicam a todo o intervalo de dados.
  2. A rigor, os problemas associados à heterocedasticidade existem com a menor quantidade de heterocedasticidade. No entanto, como você pode suspeitar, com muito pouca heterocedasticidade, os problemas também são muito pequenos. Não existe uma 'linha clara' verdadeira em que a heterocedasticidade se torne excessiva, mas uma regra prática é que os modelos lineares não são muito afetados pela heterocedasticidade quando a maior variação é a menor variação. 4×
- Reinstate Monica
fonte