Faz sentido estudar parcelas de resíduos com relação à variável dependente?

11

Eu gostaria de saber se faz sentido estudar os gráficos de resíduos com relação à variável dependente quando eu tiver uma regressão univariada. Se faz sentido, o que significa uma correlação forte, linear e crescente entre os resíduos (no eixo y) e os valores estimados da variável dependente (no eixo x)?

insira a descrição da imagem aqui

regression residuals Luigi
fonte

3

Não sei o que você quer dizer com "forte, linear, crescente correlação". Você pode mostrar o enredo? É perfeitamente razoável plotar resíduos contra os valores ajustados. Em geral, você deseja que não haja relacionamento - uma linha horizontal plana que atravessa o centro. Além disso, você deseja que a dispersão vertical dos resíduos seja constante do lado esquerdo do gráfico para a direita.

gung - Restabelece Monica

Oi. Obrigado pela sua resposta. Este é o enredo: img100.imageshack.us/img100/7414/bwages.png

Luigi

Isso é desconcertante. Deixe-me entender: você executou um modelo de regressão e depois plotou os resíduos versus os valores ajustados, e foi isso que você conseguiu, certo? Não deveria ser assim. Você pode editar sua pergunta e colar o código usado para o modelo e o gráfico?

gung - Restabelece Monica

Você entendeu certo. Sinto muito, mas não sei como recuperar o código, executei a regressão e plotei os resíduos com o programa Gretl.

Luigi

2

Inicialmente, não vi o comentário de @ mark999 quando escrevi minha resposta abaixo. Eu acho que sua suspeita está correta, que isso é resíduo versus valores y. Luigi, refaça seu gráfico - não tente interpretá-lo quando estiver errado sobre quais são as variáveis.

Michael Bishop

12

Suponha que você tenha a regressão , em que . Então, . Quanto maior o valor , maior o residual. Pelo contrário, um gráfico dos resíduos contra deve mostrar nenhuma relação sistemática. Além disso, o valor previsto deve ser aproximadamente --- o mesmo para todas as observações. Se todos os valores previstos forem aproximadamente os mesmos, eles não deverão ser correlacionados com os erros. $y_i = \beta_0 + \beta_1 x_i + \epsilon_i$ $\beta_1 \approx 0$ $y_i - \beta_0 \approx \epsilon_i$ $y$ $x$ $\hat{y}_i$ $\hat{\beta}_0$

O que o enredo está me dizendo é que e são essencialmente independentes (claro, há melhores maneiras de mostrar isso). Informe-nos se o seu coeficiente não estiver próximo de 0. $x$ $y$ $\hat{\beta}_1$

Para um diagnóstico melhor, use uma plotagem dos resíduos contra o salário previsto ou contra o valor . Você não deve observar um padrão distinto nessas plotagens. $x$

Se você quiser uma pequena demonstração de R, aqui está:

y      <- rnorm(100, 0, 5)
x      <- rnorm(100, 0, 2)
res    <- lm(y ~ x)$residuals
fitted <- lm(y ~ x)$fitted.values
plot(y, res)
plot(x, res)
plot(fitted, res)

Charlie
fonte

β_{1} = 0

$\beta_1=0$

5

Supondo que o modelo estimado esteja especificado corretamente ...

$P_X=X(X'X)^{-1}X'$ $P_X$ $P_X^2=P_X$ $P_X'=P_X$

$Cov(\hat{Y},\hat{e})=Cov(P_XY,(I-P_X)Y)=P_XCov(Y,Y)(I-P_X)'=\sigma^2P_X(I-P_X)=0$

Portanto, o gráfico de dispersão de resíduos contra a variável dependente prevista não deve mostrar correlação.

Mas!

$Cov(Y,\hat{e})=Cov(Y,(I-P_X)Y)=Cov(Y,Y)(I-P_X)'=\sigma^2(I-P_X)$

$\sigma^2(I-P_X)$

Tanto quanto eu sei, Gretl produz por padrão o gráfico de resíduos contra a variável dependente original (não a prevista!).

Roah
fonte

Eu aprecio a possibilidade diferente. É aqui que algum conhecimento sobre Gretl é útil. Eu me pergunto, no entanto, quão plausível é que essa seja a resposta real. Usando meus dados simulados, correlacionei e plotei resíduos versus dv original; r = 0,22 e o gráfico se parece muito com o meu terceiro gráfico, não o gráfico de perguntas. Obviamente, trabalhei nesses dados para verificar a plausibilidade da minha história - eles podem não ser adequados para verificar a sua.

gung - Restabelece Monica

@gung Como assim você usou seus dados simulados?

Michael Bishop

@ MichaelBishop se você olhar para a minha resposta, verá que simulei dados para experimentar minha história e ver se ela se pareceria com a trama publicada. Meu código e gráficos são apresentados. Desde que eu especifiquei a semente, ela pode ser reproduzida por qualquer pessoa com acesso a R.

gung - Reinstate Monica

4

É possível que você esteja confundindo valores ajustados / previstos com os valores reais?

Como o @gung e o @biostat disseram, você espera que não exista relação entre valores ajustados e resíduos. Por outro lado, encontrar uma relação linear entre os valores reais da variável dependente / resultado e os resíduos é esperado e não é particularmente informativo.

Adicionado para esclarecer a frase anterior: Não se espera apenas uma relação linear entre resíduos e valores reais de saída ... Para valores medidos baixos de Y, os valores previstos de Y de um modelo útil tendem a ser maiores que os valores reais medidos e vice-versa.

Michael Bishop
fonte

A implicação do que você está dizendo é que, se os valores são subestimados consistentemente em valores baixos de Y e superestimados consistentemente em valores altos de Y, tudo bem. Isso é um problema, certo?

Rolando2

@ rolando2, não impliquei o que você diz que impliquei, embora talvez deva esclarecer minha resposta. Como você disse, subestimar de forma consistente em valores baixos de Y e prever em valores altos de Y seria um sinal de um modelo muito ruim. Imaginei o oposto, imprevisível com valores baixos de Y e subprevisível com valores altos de Y. Esse fenômeno é comum e deve ser esperado aproximadamente na proporção de quanto da variação na variável dependente você é capaz de explicar. Imagine que você não têm quaisquer variáveis que predizem Y, então você sempre usar a média como a sua previsão

Michael Bishop

1

o que você disse faz sentido para mim, exceto por uma coisa. Estou tendo problemas para imaginar que uma tendência tão forte quanto a que Luigi demonstrou poderia aparecer em uma solução sólida ou desejável, mesmo que a tendência fosse do canto superior esquerdo para o canto inferior direito.

Rolando2

1

@ rolando2, os resíduos são tipicamente definidos como observados - ajustados, portanto, os resíduos negativos são super-previsões. Em um modelo adequadamente especificado, com pouco poder explicativo - sou cientista social, então vejo isso o tempo todo -, haverá uma forte relação positiva entre os resíduos e os valores de resultado observados. Se esse é um gráfico residual versus real, uma tendência do canto superior esquerdo para o inferior direito seria o sinal de um modelo mal especificado com o qual você se preocupou inicialmente.

Michael Bishop

Ok, minha culpa. Como Michael Bishop e Roah escreveram, Gretl traça resíduos com relação ao y observado , não ao previsto. Sinto muito por toda essa bagunça, realmente não esperava todas essas respostas. Sou iniciante e cometi esse erro; espero que você possa "me perdoar". Enfim, acho que isso deveria me indicar que eu deveria ter usado mais variáveis explicativas. Obrigado a todos!

Luigi

3

As respostas oferecidas estão me dando algumas idéias sobre o que está acontecendo aqui. Eu acredito que pode ter havido alguns erros cometidos por acidente. Veja se a seguinte história faz sentido: Para começar, acho que provavelmente existe uma forte relação entre X e Y nos dados (aqui estão alguns códigos e um gráfico):

set.seed(5)
wage <- rlnorm(1000, meanlog=2.3, sdlog=.5)
something_else <- .7*wage + rnorm(1000, mean=0, sd=1)
plot(wage, something_else, pch=3, col="red", main="Plot X vs. Y")

insira a descrição da imagem aqui

Mas, por engano, Y foi previsto apenas a partir da média. Além disso, os resíduos do modelo médio único são plotados contra X, embora o que se pretendesse fosse plotar contra os valores ajustados (código e plotagem):

meanModel <- lm(something_else~1)
windows()
plot(wage, meanModel$residuals, pch=3, col="red", 
    main="Plot of residuals from Mean only Model against X")
abline(h=0, lty="dotted")

insira a descrição da imagem aqui

Podemos corrigir isso ajustando o modelo apropriado e plotando os resíduos a partir dele (código e plotagem):

appropriateModel <- lm(something_else~wage)
windows()
plot(appropriateModel$fitted.values, appropriateModel$residuals, pch=3, col="red",
main="Plot of residuals from the appropriate\nmodel against fitted values")
lines(lowess(appropriateModel$residuals~appropriateModel$fitted.values))

insira a descrição da imagem aqui

Parece apenas o tipo de brincadeira que eu fiz quando estava começando.

Repor a Monica
fonte

0

Este gráfico indica que o modelo que você instalou não é bom. Como o @gung disse nos primeiros comentários sobre a questão principal, não deve haver relação entre resposta predicada e residual.

"um analista deve esperar que um modelo de regressão cometa erros ao prever uma resposta de maneira aleatória; o modelo deve prever valores mais altos que o real e mais baixos que o real com igual probabilidade. Veja isso "

Eu recomendaria a resposta da primeira parcela versus variável independente para ver a relação entre elas. Pode ser razoável adicionar termos polinomiais no modelo.

Biostat
fonte

0

Não é isso o que acontece se não houver relação entre a variável X e Y? Olhando para este gráfico, parece que você está essencialmente prevendo Y com sua média.

Adão
fonte

0

Acho que o OP representou resíduos versus a variável de resposta original (não a variável de resposta ajustada do modelo). Eu vejo gráficos assim o tempo todo, com quase o mesmo padrão exato. Certifique-se de plotar resíduos versus valores ajustados, pois não tenho certeza de que inferência significativa você poderia obter dos resíduos versus o Y original. Mas eu certamente poderia estar errado.

Todai
fonte

Faz sentido estudar parcelas de resíduos com relação à variável dependente?

Respostas: