Gráficos residuais: por que plotagem versus valores ajustados, valores

20

No contexto da regressão OLS, entendo que um gráfico residual (vs valores ajustados) é convencionalmente visto para testar a variação constante e avaliar a especificação do modelo. Por que os resíduos são plotados contra os ajustes, e não os valores de ? Como as informações diferem desses dois gráficos?Y

Estou trabalhando em um modelo que produziu os seguintes gráficos residuais:

insira a descrição da imagem aqui

insira a descrição da imagem aqui

Portanto, o gráfico versus os valores ajustados parece bom à primeira vista, mas o segundo gráfico contra o valor tem um padrão. Estou me perguntando por que um padrão tão pronunciado também não se manifestaria no gráfico residual versus ajuste ....Y

Não estou procurando ajuda para diagnosticar problemas com o modelo, mas apenas tentando entender as diferenças (geralmente) entre (1) gráfico residual versus ajuste e (2) gráfico residual vsY

Pelo que vale, tenho certeza de que o padrão de erro no segundo gráfico é devido a variáveis ​​omitidas que influenciam o DV. Atualmente, estou trabalhando na obtenção desses dados, o que, espero, ajudará no ajuste e nas especificações gerais. Estou trabalhando com dados imobiliários: DV = Preço de venda. IVs: pés quadrados da casa, # vagas na garagem, ano de construção, ano de construção . 2

Mac
fonte
3
Tomei a liberdade de alterar o título para corresponder à sua intenção um pouco mais de perto. Mesmo entre os economistas (você pode ser um) "IV" tem outro significado de variável instrumental, embora não haja ambiguidade nesse caso. Para uma melhor comunicação entre várias ciências estatísticas, alguns de nós desencorajam abreviações usadas localmente, como DV (que para algumas pessoas ainda significa Deo volente ) e IV em favor de termos evocativos, como resposta ou resultado, por um lado, e preditor ou covariável, por outro. de outros. Sei que esse é um detalhe da sua pergunta, mas foi bem respondido.
Nick Cox

Respostas:

11

Por construção, o termo de erro em um modelo OLS não está correlacionado com os valores observados das covariáveis ​​X. Isso sempre será verdadeiro para os dados observados, mesmo que o modelo esteja produzindo estimativas tendenciosas que não refletem os valores verdadeiros de um parâmetro porque uma suposição do modelo é violada (como um problema de variável omitida ou um problema de causalidade reversa). Os valores previstos são inteiramente uma função dessas covariáveis, portanto, também não são correlacionados com o termo de erro. Assim, quando você plota resíduos contra os valores previstos, eles devem sempre parecer aleatórios, porque na verdade não são correlacionados pela construção do estimador. Por outro lado, é inteiramente possível (e de fato provável) que o termo de erro de um modelo seja correlacionado com Y na prática. Por exemplo, com uma variável X dicotômica, quanto mais Y verdadeiro for deE(Y | X = 1)ou E(Y | X = 0)então, quanto maior o residual, será. Aqui está a mesma intuição com dados simulados em R, onde sabemos que o modelo é imparcial porque controlamos o processo de geração de dados:

rm(list=ls())
set.seed(21391209)

trueSd <- 10
trueA <- 5
trueB <- as.matrix(c(3,5,-1,0))
sampleSize <- 100

# create independent x-values
x1 <- rnorm(n=sampleSize, mean = 0, sd = 4)
x2 <-  rnorm(n=sampleSize, mean = 5, sd = 10)
x3 <- 3 + x1 * 4 + x2 * 2 + rnorm(n=sampleSize, mean = 0, sd = 10)
x4 <- -50 + x1 * 7 + x2 * .5 + x3 * 2  + rnorm(n=sampleSize, mean = 0, sd = 20)
X = as.matrix(cbind(x1,x2,x3,x4))


# create dependent values according to a + bx + N(0,sd)
Y <-  trueA +  X %*%  trueB  +rnorm(n=sampleSize,mean=0,sd=trueSd)


df = as.data.frame(cbind(Y,X))
colnames(df) <- c("y", "x1", "x2", "x3", "x4")
ols = lm(y~x1+x2+x3+x4, data = df)
y_hat = predict(ols, df)
error = Y - y_hat
cor(y_hat, error) #Zero
cor(Y, error) #Not Zero

Obtemos o mesmo resultado da correlação zero com um modelo tendencioso, por exemplo, se omitirmos x1.

ols2 = lm(y~x2+x3+x4, data = df)
y_hat2 = predict(ols2, df)
error2 = Y - y_hat2
cor(y_hat2, error2) #Still zero
cor(Y, error2) #Not Zero
Michael
fonte
2
Útil, mas a primeira frase pode ser reescrita para maior clareza. "Construção" produz os resíduos; o termo de erro é considerado existente e existente antes do cálculo. Da mesma forma, eu diria que são as estimativas que são construídas, não o estimador, que é o método usado para construí-las.
Nick Cox
Mas então por que olhamos para o gráfico residual (vs fits)? Que finalidade de diagnóstico esse gráfico tem? Eu sou novo no site. Preciso marcar Michael ou ele recebe esse comentário automaticamente? Meu comentário também se aplicaria à resposta @Glen_b abaixo. Ambas as respostas ajudam a minha compreensão. Obrigado.
Mac
... porque eles podem revelar outra estrutura. A falta de correlação entre residual e ajuste não significa que outras coisas também não possam estar acontecendo. Se você acredita que seu modelo é perfeito, não acredita que isso seja possível ... Na prática, você precisa verificar outros tipos de estrutura.
Nick Cox
@ Mac, vou ser sincero e dizer que nunca olho para essas parcelas. Se você está tentando fazer uma inferência causal, deve pensar em problemas variáveis ​​omitidos e reverter problemas de causalidade conceitualmente. Qualquer um desses problemas poderia ocorrer e você não seria capaz de observá-los nessas parcelas, pois são problemas de equivalência observacional. Se tudo o que importa é a previsão, você deve pensar e testar fora da amostra o desempenho das previsões do modelo fora da amostra (caso contrário, não é uma previsão).
Michael
@NickCox Sim, quero dizer o termo do erro estimado pelo modelo e não o valor verdadeiro do parâmetro.
Michael
20

Dois fatos que suponho que você está feliz comigo apenas afirmando:

yEu=y^Eu+e^Eu

Cov(y^Eu,e^Eu)=0 0

Então:

Cov(yEu,e^Eu)=Cov(y^Eu+e^Eu,e^Eu)

=Cov(y^Eu,e^Eu)+Cov(e^Eu,e^Eu)

=0 0+σe2

=σe2

Portanto, embora o valor ajustado não esteja correlacionado com o residual, a observação é .

Com efeito, isso ocorre porque a observação e o residual estão relacionados ao termo do erro.

Isso geralmente torna um pouco mais difícil o uso da plotagem residual para fins de diagnóstico.

Glen_b -Reinstate Monica
fonte