No contexto da regressão OLS, entendo que um gráfico residual (vs valores ajustados) é convencionalmente visto para testar a variação constante e avaliar a especificação do modelo. Por que os resíduos são plotados contra os ajustes, e não os valores de ? Como as informações diferem desses dois gráficos?
Estou trabalhando em um modelo que produziu os seguintes gráficos residuais:
Portanto, o gráfico versus os valores ajustados parece bom à primeira vista, mas o segundo gráfico contra o valor tem um padrão. Estou me perguntando por que um padrão tão pronunciado também não se manifestaria no gráfico residual versus ajuste ....
Não estou procurando ajuda para diagnosticar problemas com o modelo, mas apenas tentando entender as diferenças (geralmente) entre (1) gráfico residual versus ajuste e (2) gráfico residual vs
Pelo que vale, tenho certeza de que o padrão de erro no segundo gráfico é devido a variáveis omitidas que influenciam o DV. Atualmente, estou trabalhando na obtenção desses dados, o que, espero, ajudará no ajuste e nas especificações gerais. Estou trabalhando com dados imobiliários: DV = Preço de venda. IVs: pés quadrados da casa, # vagas na garagem, ano de construção, ano de construção .
fonte
Respostas:
Por construção, o termo de erro em um modelo OLS não está correlacionado com os valores observados das covariáveis X. Isso sempre será verdadeiro para os dados observados, mesmo que o modelo esteja produzindo estimativas tendenciosas que não refletem os valores verdadeiros de um parâmetro porque uma suposição do modelo é violada (como um problema de variável omitida ou um problema de causalidade reversa). Os valores previstos são inteiramente uma função dessas covariáveis, portanto, também não são correlacionados com o termo de erro. Assim, quando você plota resíduos contra os valores previstos, eles devem sempre parecer aleatórios, porque na verdade não são correlacionados pela construção do estimador. Por outro lado, é inteiramente possível (e de fato provável) que o termo de erro de um modelo seja correlacionado com Y na prática. Por exemplo, com uma variável X dicotômica, quanto mais Y verdadeiro for de
E(Y | X = 1)
ouE(Y | X = 0)
então, quanto maior o residual, será. Aqui está a mesma intuição com dados simulados em R, onde sabemos que o modelo é imparcial porque controlamos o processo de geração de dados:Obtemos o mesmo resultado da correlação zero com um modelo tendencioso, por exemplo, se omitirmos
x1.
fonte
Dois fatos que suponho que você está feliz comigo apenas afirmando:
Então:
Portanto, embora o valor ajustado não esteja correlacionado com o residual, a observação é .
Com efeito, isso ocorre porque a observação e o residual estão relacionados ao termo do erro.
Isso geralmente torna um pouco mais difícil o uso da plotagem residual para fins de diagnóstico.
fonte