Eu gostaria de saber se faz sentido estudar os gráficos de resíduos com relação à variável dependente quando eu tiver uma regressão univariada. Se faz sentido, o que significa uma correlação forte, linear e crescente entre os resíduos (no eixo y) e os valores estimados da variável dependente (no eixo x)?
regression
residuals
Luigi
fonte
fonte
Respostas:
Suponha que você tenha a regressão , em que . Então, . Quanto maior o valor , maior o residual. Pelo contrário, um gráfico dos resíduos contra deve mostrar nenhuma relação sistemática. Além disso, o valor previsto deve ser aproximadamente --- o mesmo para todas as observações. Se todos os valores previstos forem aproximadamente os mesmos, eles não deverão ser correlacionados com os erros.β 1 ≈ 0 y i - β 0 ≈ ε i y x y i β 0yEu= β0 0+ β1xEu+ ϵEu β1≈ 0 yEu- β0 0≈ ϵEu y x y^Eu β^0 0
O que o enredo está me dizendo é que e são essencialmente independentes (claro, há melhores maneiras de mostrar isso). Informe-nos se o seu coeficiente não estiver próximo de 0.y β 1x y β^1
Para um diagnóstico melhor, use uma plotagem dos resíduos contra o salário previsto ou contra o valor . Você não deve observar um padrão distinto nessas plotagens.x
Se você quiser uma pequena demonstração de R, aqui está:
fonte
Supondo que o modelo estimado esteja especificado corretamente ...
Portanto, o gráfico de dispersão de resíduos contra a variável dependente prevista não deve mostrar correlação.
Mas!
Tanto quanto eu sei, Gretl produz por padrão o gráfico de resíduos contra a variável dependente original (não a prevista!).
fonte
É possível que você esteja confundindo valores ajustados / previstos com os valores reais?
Como o @gung e o @biostat disseram, você espera que não exista relação entre valores ajustados e resíduos. Por outro lado, encontrar uma relação linear entre os valores reais da variável dependente / resultado e os resíduos é esperado e não é particularmente informativo.
Adicionado para esclarecer a frase anterior: Não se espera apenas uma relação linear entre resíduos e valores reais de saída ... Para valores medidos baixos de Y, os valores previstos de Y de um modelo útil tendem a ser maiores que os valores reais medidos e vice-versa.
fonte
As respostas oferecidas estão me dando algumas idéias sobre o que está acontecendo aqui. Eu acredito que pode ter havido alguns erros cometidos por acidente. Veja se a seguinte história faz sentido: Para começar, acho que provavelmente existe uma forte relação entre X e Y nos dados (aqui estão alguns códigos e um gráfico):
Mas, por engano, Y foi previsto apenas a partir da média. Além disso, os resíduos do modelo médio único são plotados contra X, embora o que se pretendesse fosse plotar contra os valores ajustados (código e plotagem):
Podemos corrigir isso ajustando o modelo apropriado e plotando os resíduos a partir dele (código e plotagem):
Parece apenas o tipo de brincadeira que eu fiz quando estava começando.
fonte
Este gráfico indica que o modelo que você instalou não é bom. Como o @gung disse nos primeiros comentários sobre a questão principal, não deve haver relação entre resposta predicada e residual.
"um analista deve esperar que um modelo de regressão cometa erros ao prever uma resposta de maneira aleatória; o modelo deve prever valores mais altos que o real e mais baixos que o real com igual probabilidade. Veja isso "
Eu recomendaria a resposta da primeira parcela versus variável independente para ver a relação entre elas. Pode ser razoável adicionar termos polinomiais no modelo.
fonte
Não é isso o que acontece se não houver relação entre a variável X e Y? Olhando para este gráfico, parece que você está essencialmente prevendo Y com sua média.
fonte
Acho que o OP representou resíduos versus a variável de resposta original (não a variável de resposta ajustada do modelo). Eu vejo gráficos assim o tempo todo, com quase o mesmo padrão exato. Certifique-se de plotar resíduos versus valores ajustados, pois não tenho certeza de que inferência significativa você poderia obter dos resíduos versus o Y original. Mas eu certamente poderia estar errado.
fonte