Este link da Wikipedia lista uma série de técnicas para detectar a heterocedasticidade dos resíduos de OLS. Eu gostaria de aprender qual técnica prática é mais eficiente na detecção de regiões afetadas pela heterocedasticidade.
Por exemplo, aqui a região central do gráfico OLS 'Residuals vs Fitted' parece ter uma variação maior do que os lados do gráfico (não tenho muita certeza dos fatos, mas vamos supor que seja o caso em questão). Para confirmar, observando os rótulos de erro no gráfico QQ, podemos ver que eles correspondem aos rótulos de erro no centro do gráfico Residuals.
Mas como podemos quantificar a região de resíduos que tem uma variação significativamente maior?
regression
least-squares
heteroscedasticity
Robert Kubrick
fonte
fonte
Respostas:
Esse problema tem uma sensação exploratória. John Tukey descreve muitos procedimentos para explorar a heterocedasticidade em seu clássico, Exploratory Data Analysis (Addison-Wesley 1977). Talvez o mais diretamente útil seja uma variante de seu " enredo esquemático errante ". Isso divide uma variável (como o valor previsto) em compartimentos e usa resumos de m-letras (generalizações de boxplots) para mostrar a localização, a expansão e o formato da outra variável para cada compartimento. As estatísticas da letra m são mais suavizadas, a fim de enfatizar os padrões gerais em vez dos desvios de chance.
Uma versão rápida pode ser preparada explorando o
boxplot
procedimento noR
. Ilustramos com dados simulados fortemente heterocedásticos:Vamos obter os valores e resíduos previstos da regressão OLS:
Aqui, então, está o gráfico esquemático errante, usando caixas de contagem igual para os valores previstos. Eu uso
lowess
para um liso rápido e sujo.A curva azul suaviza as medianas. Sua tendência horizontal indica que a regressão geralmente é um bom ajuste. As outras curvas suavizam as extremidades da caixa (quartis) e as cercas (que geralmente são valores extremos). Sua forte convergência e subsequente separação testemunham a heterocedasticidade - e nos ajudam a caracterizá-la e quantificá-la.
(Observe a escala não linear no eixo horizontal, refletindo a distribuição dos valores previstos. Com um pouco mais de trabalho, esse eixo pode ser linearizado, o que às vezes é útil.)
fonte
Tipicamente, a heterocedasticidade é modelada usando uma abordagem Breusch-Pagan. Os resíduos da sua regressão linear são então elevados ao quadrado e regredidos nas variáveis em seu modelo linear original. A última regressão é chamada de regressão auxiliar .
Para seus propósitos, você pode se concentrar nos coeficientes individuais desse modelo para ver quais variáveis são mais preditivas de resultados de variação alta ou baixa.
fonte