Qual é a correlação esperada entre a variável residual e a dependente?

26

Na regressão linear múltipla, posso entender que as correlações entre residual e preditores são zero, mas qual é a correlação esperada entre a variável residual e a critério? Deveria ser zero ou altamente correlacionado? Qual o significado disso?

Jfly
fonte
4
O que é uma "variável critério"?
whuber
2
@whuber Acho que o Jfly está se referindo à resposta / resultado / dependente / etc. variável. davidmlane.com/hyperstat/A101702.html É interessante ver os nomes de tais variáveis: en.wikipedia.org/wiki/…
Jeromy Anglim
@Jeromy Thanks! Eu imaginei que esse era o significado, mas não tinha certeza. Esse é um novo termo para mim - e para a Wikipedia, evidentemente.
whuber
Eu teria pensado que isso seria igual a ou algo semelhante, comoE[R2]R2=[corr(y,y^)]2
probabilityislogic
y=f(x)+e , onde f é a função de regressão, e é erro e Cov(f(x),e)=0 . Então Corr(y,e)=SD(e)/SD(y)=1R2 . Essa é a estatística da amostra; seu valor esperado seria semelhante, mas mais confuso.
precisa

Respostas:

20

No modelo de regressão:

yi=xiβ+ui

a suposição usual é que , é uma amostra de iid. Sob suposições de que e possui classificação completa, o estimador ordinário de mínimos quadrados:i = 1 , . . . , n E x i u i = 0 E ( x i x i )(yi,xi,ui)i=1,...,nExiui=0E(xixi)

β^=(i=1nxixi)1i=1xiyi

é consistente e assintoticamente normal. A covariância esperada entre uma variável residual e a resposta é então:

Eyiui=E(xiβ+ui)ui=Eui2

Se, além disso, assumirmos que e , podemos calcular a covariância esperada entre e seu residual de regressão:E ( u 2 i | x 1 , . . . , X n ) = σ 2 y IE(ui|x1,...,xn)=0E(ui2|x1,...,xn)=σ2yi

Eyiu^i=Eyi(yixiβ^)=E(xiβ+ui)(uixi(β^β))=E(ui2)(1Exi(j=1nxjxj)1xi)

Agora, para obter a correlação, precisamos calcular e . Acontece quevar ( u i )Var(yi)Var(u^i)

Var(u^i)=E(yiu^i),

conseqüentemente

Corr(yi,u^i)=1Exi(j=1nxjxj)1xi

Agora o termo vem da diagonal da matriz do chapéu , onde . A matriz é idempotente, portanto, satisfaz uma propriedade a seguir H=X( X ' X ) - 1 X ' X=[ x i ,. . . , x N ] Hxi(j=1nxjxj)1xiH=X(XX)1XX=[xi,...,xN]H

trace(H)=ihii=rank(H),

onde é o termo diagonal de . O é o número de variáveis ​​linearmente independentes em , que geralmente é o número de variáveis. Vamos chamá-lo . O número de é o tamanho de amostra . Portanto, temos termos não-negativos que devem resumir a . Geralmente é muito maior que , portanto, muito estaria próximo do zero, significando que a correlação entre a variável residual e a resposta seria próxima de 1 na maior parte das observações. H classificação ( H ) x i p h i i N N p N p h i ihiiHrank(H)xiphiiNNpNphii

O termo também é usado em vários diagnósticos de regressão para determinar observações influentes.hii

mpiktas
fonte
10
+1 Esta é exatamente a análise correta. Mas por que você não termina o trabalho e responde à pergunta? O OP pergunta se essa correlação é "alta" e o que isso pode significar .
whuber
Então você poderia dizer que a correlação é aproximadamente1pN
probabilityislogic
11
A correlação é diferente para cada observação, mas sim, você pode dizer isso, desde que X não possua discrepâncias.
Mpgtas 28/08
21

A correlação depende do . Se for alto, significa que grande parte da variação na sua variável dependente pode ser atribuída à variação nas suas variáveis ​​independentes, e NÃO ao seu termo de erro.R 2R2R2

No entanto, se for baixo, significa que grande parte da variação em sua variável dependente não está relacionada à variação em suas variáveis ​​independentes e, portanto, deve estar relacionada ao termo do erro.R2

Considere o seguinte modelo:

Y XY=Xβ+ε , onde e não estão correlacionados.YX

Assumindo condições de regularidade suficientes para o CLT manter.

0XY Y =X β ε:=Y - Y =Y-0=YεYβ^ convergirá para , pois e não estão correlacionados. Portanto, sempre será zero. Assim, o . e estão perfeitamente correlacionados !!!0XYY^=Xβ^ε:=YY^=Y0=YεY

Mantendo tudo o mais fixo, aumentar o diminuirá a correlação entre o erro e o dependente. Uma correlação forte não é necessariamente causa de alarme. Isso pode significar simplesmente que o processo subjacente é barulhento. No entanto, um baixo (e, portanto, alta correlação entre erro e dependente) pode ser devido à especificação incorreta do modelo.R 2R2R2

Matt
fonte
Acho que esta resposta confuso, em parte através da utilização de " " para ficar, tanto para os termos de erro no modelo e os resíduos . Outro ponto de confusão é a referência a "convergir para", mesmo que não exista uma sequência de nada em evidência à qual a convergência possa se aplicar. A suposição de que e não estão correlacionados parece especial e não ilustrativa das circunstâncias gerais. Tudo isso obscurece o que quer que esta resposta esteja tentando dizer ou quais afirmações geralmente são verdadeiras. Y - Y X YεYY^XY
whuber
17

Acho esse tópico bastante interessante e, infelizmente, as respostas atuais são incompletas ou parcialmente enganosas - apesar da relevância e da alta popularidade dessa pergunta.

Por definição do quadro OLS clássica não deve haver nenhuma relação entreeuŷu^ , uma vez que os resíduos obtidos são por construção não correlacionadas comao derivar o estimador OLS. A propriedade de minimização da variância sob a homocedasticidade garante que o erro residual seja distribuído aleatoriamente em torno dos valores ajustados. Isso pode ser formalmente mostrado por: yŷ

= P σ 2 - P σ 2 = 0

Cov(ŷ,û|X)=Cov(Py,My|X)=Cov(Py,(IP)y|X)=PCov(y,y)(IP)
=Pσ2Pσ2=0

Onde e são matrizes idempotentes definidas como: e .P P = X ( X X ) X M = I - PMPP=X(XX)XM=IP

Esse resultado é baseado em exogeneidade e homocedasticidade estritas e praticamente se mantém em amostras grandes. A intuição para a sua uncorrelatedness é o seguinte: os valores ajustadoscondicional em são centradas em torno de, que são pensados como forma independente e identicamente distribuído. No entanto, qualquer desvio a partir da estrita exogeneidade e homocedasticidade pressuposto poderia fazer com que as variáveis explanatórias que ser endógena e estimular uma correlação latente entree. X u u yŷXûûŷ

Agora, a correlação entre os resíduose o "original" é uma história completamente diferente:yûy

Cov(y,û|X)=Cov(yMy|X)=Cov(y,(1P)y)=Cov(y,y)(1P)=σ2M

Alguns verificando a teoria e sabemos que essa matriz de covariância é idêntica à matriz de covariância do próprio residual (prova omitida). Nós temos:u^

Var(û)=σ2M=Cov(y,û|X)

Se quisermos calcular a covariância (escalar) entre e conforme solicitado pelo OP, obtemos:uyu^

Covscalar(y,û|X)=Var(û|X)=(ui2)/N

(= soma das entradas diagonais da matriz de covariância e divida por N)

A fórmula acima indica um ponto interessante. Se testarmos o relacionamento regredindo nos resíduos (+ constante), o coeficiente de inclinação , que pode ser facilmente derivado quando dividimos a expressão acima por o .u p u , y = 1 Var ( u | X )yu^βu^,y=1Var(û|X)

Por outro lado, a correlação é a covariância padronizada pelos respectivos desvios-padrão. Agora, a matriz de variância dos resíduos é , enquanto que a variância de é . A correlação torna-se, portanto:y σ 2 ICorr(Y,U)σ2Myσ2ICorr(y,û)

Corr(y,û)=Var(û)Var(u^)Var(y)=Var(û)Var(y)=Var(û)σ2

Este é o resultado principal que deve conter uma regressão linear. A intuição é que o expressa o erro entre a variação verdadeira do termo de erro e um proxy para a variação com base nos resíduos. Observe que a variação de é igual à variação de mais a variação dos resíduos . Portanto, ele pode ser reescrito de forma mais intuitiva como: y y uCorr(y,û)yy^u^

Corr(y,û)=11+Var(y)^Var(û)

Existem duas forças aqui no trabalho. Se temos um ótimo ajuste da linha de regressão, espera-se que a correlação seja baixa devido a . Por outro lado, é um pouco difícil de estimar, pois é incondicional e uma linha no espaço de parâmetros. Comparar variações incondicionais e condicionais dentro de uma proporção pode não ser um indicador apropriado, afinal. Talvez seja por isso que raramente é feito na prática.var ( y )Var(û)0Var(y^)

Uma tentativa concluir a questão: A correlação entre eé positivo e relaciona-se com a relação entre a variação dos resíduos e a variância da verdadeira termo de erro, aproximado pelo variância incondicional em . Portanto, é um indicador um pouco enganador.u yyûy

Não obstante este exercício pode nos dar alguma intuição sobre o funcionamento e os pressupostos teóricos inerentes de uma regressão OLS, raramente avaliar a correlação entre e. Certamente existem testes mais estabelecidos para verificar propriedades do termo de erro verdadeiro. Em segundo lugar, tenha em mente que os resíduos não são o termo de erro, e os testes sobre resíduosque fazer previsões das características sobre o verdadeiro termo de erro são limitados e sua necessidade de validade sejam manuseadas com o máximo cuidado.u u uyûûu

Por exemplo, gostaria de destacar uma declaração feita por um pôster anterior aqui. Dizem que,

"Se seus resíduos estão correlacionados com suas variáveis ​​independentes, então seu modelo é heterocedástico ..."

Eu acho que isso pode não ser totalmente válido neste contexto. Acredite ou não, mas os MQO resíduossão por construção feita para ser não correlacionadas com a variável independente . Para ver isso, considere:x kûxk

= X y - X X ( X X ) X y = X y - X y = 0

Xui=XMy=X(IP)y=XyXPy
=XyXX(XX)Xy=XyXy=0
Xui=0Cov(X,ui|X)=0Cov(xki,ui|xki)=0

No entanto, você pode ter ouvido alegações de que uma variável explicativa está correlacionada com o termo do erro . Observe que tais afirmações são baseadas em suposições sobre toda a população com um verdadeiro modelo de regressão subjacente, que não observamos em primeira mão. Consequentemente, verificando a correlação entre e inútil num quadro OLS linear. Entretanto, ao testar a heterocedasticidade , levamos em consideração o segundo momento condicional, por exemplo, regredimos os resíduos quadrados em ou em uma função deu X XyûXX, como geralmente ocorre com os estimadores de FGSL. Isso é diferente de avaliar a correlação simples. Espero que isso ajude a tornar as coisas mais claras.

Majte
fonte
11
Observe que temos (pelo menos aproximadamente). Isso fornece que é mais uma intuição sobre o que você mencionou nos parágrafos posteriores. corr(y, u )=var(u^)var(y)=SSETSS=1R2corr(y,u^)=1R2
probabilityislogic
2
O que acho interessante nessa resposta é que a correlação é sempre positiva.
probabilityislogic
Você afirma que é matriz, mas divide por ela. Var(y)
precisa saber é o seguinte
@probabilityislogic: Não tenho certeza se posso seguir seu passo. Estaria então sob o quadrado 1+ (1/1-R ^ 2), que é (2-R ^ 2) / (1-R ^ 2)? No entanto, o que é verdade é que permanece positivo. A intuição é que, se você tem uma linha através de um gráfico de dispersão e regride essa linha com base nos erros dessa linha, deve ser óbvio que, à medida que o valor y dessa linha aumenta, o valor dos resíduos também aumenta. Isso ocorre porque os resíduos são positivamente dependentes de y por construção.
Majte
@mpiktas: Nesse caso, a matriz se torna um escalar, pois estamos lidando apenas com uma dimensão.
Majte
6

A resposta do Adam está errada. Mesmo com um modelo que ajusta perfeitamente os dados, você ainda pode obter alta correlação entre resíduos e variável dependente. Essa é a razão pela qual nenhum livro de regressão solicita que você verifique essa correlação. Você pode encontrar a resposta no livro "Análise de regressão aplicada" do Dr. Draper.

Jeff
fonte
3
Mesmo se correto, isso é mais uma afirmação do que uma resposta de acordo com os padrões da CV, @Jeff. Você se importaria de elaborar / fazer backup de sua reivindicação? Mesmo apenas um número de página e edição da Draper & Smith seriam suficientes.
gung - Restabelece Monica
4

Portanto, os resíduos são sua variação inexplicável, a diferença entre as previsões do seu modelo e o resultado real que você está modelando. Na prática, poucos modelos produzidos por regressão linear terão todos os resíduos próximos a zero, a menos que a regressão linear esteja sendo usada para analisar um processo mecânico ou fixo.

Idealmente, os resíduos do seu modelo devem ser aleatórios, o que significa que eles não devem ser correlacionados com suas variáveis ​​independentes ou dependentes (o que você chama de variável de critério). Na regressão linear, seu termo de erro é normalmente distribuído; portanto, seus resíduos também devem ser normalmente distribuídos também. Se você tiver discrepâncias significativas ou se seus resíduos estiverem correlacionados com sua variável dependente ou com suas variáveis ​​independentes, você terá um problema com seu modelo.

Se você tiver discrepâncias significativas e distribuição não normal de seus resíduos, os discrepantes podem estar distorcendo seus pesos (Betas), e eu sugeriria o cálculo do DFBETAS para verificar a influência de suas observações em seus pesos. Se seus resíduos estiverem correlacionados com sua variável dependente, haverá uma quantidade significativamente grande de variação inexplicável que você não está contabilizando. Você também pode ver isso se estiver analisando observações repetidas da mesma coisa, devido à autocorrelação. Isso pode ser verificado verificando se seus resíduos estão correlacionados com a sua variável de tempo ou índice. Se seus resíduos estão correlacionados com suas variáveis ​​independentes, seu modelo é heterocedástico (consulte: http://en.wikipedia.org/wiki/Heteroscedasticity) Você deve verificar (se ainda não o fez) se suas variáveis ​​de entrada são normalmente distribuídas e, caso contrário, considere dimensionar ou transformar seus dados (os tipos mais comuns são log e raiz quadrada) para torná-los mais normalizado.

No caso de ambos, seus resíduos e suas variáveis ​​independentes, você deve fazer um QQ-Plot, bem como executar um teste de Kolmogorov-Smirnov (essa implementação específica às vezes é chamada de teste de Lilliefors) para garantir que seus valores ajuste uma distribuição normal.

Três coisas que são rápidas e podem ser úteis para lidar com esse problema: examinar a mediana de seus resíduos, devem ser o mais próximo possível de zero (a média quase sempre será zero como resultado de como o termo de erro é ajustado na regressão linear), um teste de Durbin-Watson para autocorrelação em seus resíduos (especialmente como mencionei antes, se você estiver observando várias observações das mesmas coisas) e a execução de um gráfico residual parcial o ajudará a procurar heterocedasticidade e valores extremos.

Adão
fonte
Muito obrigado. Sua explicação é muito útil para mim.
Jfly
11
+1 Resposta agradável e abrangente. Vou nitpick em 2 pontos. "Se seus resíduos estão correlacionados com suas variáveis ​​independentes, então seu modelo é heterocedástico" - eu diria que se a variação de seus resíduos depender do nível de uma variável independente, você terá heterocedasticidade. Além disso, ouvi os testes de Kolmogorov-Smirnov / Lilliefors descritos como "notoriamente não confiáveis" e, na prática, certamente achei que isso era verdade. Melhor fazer uma determinação subjetiva com base em um gráfico de QQ ou em um histograma simples.
Rolando2
4
A afirmação de que "os resíduos do seu modelo ... não devem ser correlacionados com ... sua ... variável dependente" geralmente não é verdadeira, conforme explicado em outras respostas neste segmento. Você se importaria de corrigir esta postagem?
gung - Restabelece Monica
11
(-1) Acho que este post não é relevante o suficiente para a pergunta. É bom como conselho geral, mas talvez um caso de "resposta certa para a pergunta errada".
probabilityislogic