Como exemplo, considere o ChickWeight
conjunto de dados em R. A variação obviamente aumenta com o tempo, portanto, se eu usar uma regressão linear simples como:
m <- lm(weight ~ Time*Diet, data=ChickWeight)
Minhas perguntas:
- Quais aspectos do modelo serão questionáveis?
- Os problemas estão limitados à extrapolação fora do
Time
intervalo? - Quão tolerante é a regressão linear à violação dessa suposição (ou seja, quão heterocedástico deve ser para causar problemas)?
Respostas:
O modelo linear (ou "mínimos quadrados ordinários") ainda tem sua propriedade de imparcialidade nesse caso.
Diante da heterocedasticidade em termos de erro, você ainda possui estimativas de parâmetros imparciais, mas perde na matriz de covariância: sua inferência (ou seja, testes de parâmetros) pode estar desativada. A correção comum é usar um método robusto para calcular a matriz de covariância, também conhecida como erros padrão. Qual deles você usa depende do domínio, mas o método de White é um começo.
E, para completar, a correlação serial de termos de erro é pior, pois leva a estimativas de parâmetros tendenciosas.
fonte
A homocedasticidade é uma das premissas de Gauss Markov necessárias para que o OLS seja o melhor estimador imparcial linear (AZUL).
O Teorema de Gauss-Markov está nos dizendo que o estimador de mínimos quadrados para os coeficientes é imparcial e tem variação mínima entre todos os estimadores lineares imparciais, dado que cumprimos todas as premissas de Gauss-Markov. Você pode encontrar mais informações sobre o teorema de Gauss-Markov, incluindo a prova matemática do teorema aqui . Além disso, você pode encontrar uma lista completa das suposições do OLS, incluindo explicações sobre o que acontece caso sejam violadas aqui .β
Resumindo resumidamente as informações dos sites acima, a heterocedasticidade não introduz um viés nas estimativas de seus coeficientes. No entanto, dada a heterocedasticidade, não é possível estimar adequadamente a matriz de variância-covariância. Portanto, os erros padrão dos coeficientes estão errados. Isso significa que não é possível calcular estatísticas t e valores p e, consequentemente, o teste de hipóteses não é possível. No geral, sob heterocedasticidade, o OLS perde sua eficiência e não é mais AZUL.
No entanto, a heterocedasticidade não é o fim do mundo. Felizmente, corrigir a heterocedasticidade não é difícil. O estimador sanduíche permite estimar erros padrão consistentes para os coeficientes. No entanto, calcular os erros padrão por meio do estimador sanduíche tem um custo. O estimador não é muito eficiente e os erros padrão podem ser muito grandes. Uma maneira de recuperar parte da eficiência é agrupar erros padrão, se possível.
Você pode encontrar informações mais detalhadas sobre esse assunto nos sites que referi acima.
fonte
Ausência de homoscedasticidade pode fornecer estimativas de erro padrão não confiáveis dos parâmetros. As estimativas de parâmetros são imparciais. Mas as estimativas podem não ser eficientes (não AZUIS). Você pode encontrar mais no link a seguir
fonte
É bom lembrar que ter estimadores imparciais não significa que o modelo esteja "certo". Em muitas situações, o critério dos mínimos quadrados para estimativa do coeficiente de regressão dá origem a um modelo que possui (1) coeficientes de regressão que não têm o significado correto ou (2) previsões que são inclinadas para minimizar grandes erros, mas que compensam por ter muitos pequenos erros. Por exemplo, alguns analistas acreditam que, mesmo ao transformar para o modelo se encaixa bem, é válido prever usando OLS porque as estimativas são imparciais. Isso minimizará a soma dos erros ao quadrado, mas particionará os efeitos nolog(Y) Y β s incorretamente e resultar em uma soma não competitiva de erros absolutos. Às vezes, a falta de constância da variação sinaliza um problema de modelagem mais fundamental.
Ao analisar modelos concorrentes (por exemplo, para vs. vs. regressão ordinal), gosto de comparar a precisão preditiva usando medidas que não foram otimizadas por definição pelo processo de ajuste.Y log(Y)
fonte
Há boas informações aqui nas outras respostas, principalmente na sua primeira pergunta. Pensei em acrescentar algumas informações complementares sobre suas duas últimas perguntas.
fonte