Na regressão linear múltipla, posso entender que as correlações entre residual e preditores são zero, mas qual é a correlação esperada entre a variável residual e a critério? Deveria ser zero ou altamente correlacionado? Qual o significado disso?
regression
residuals
Jfly
fonte
fonte
Respostas:
No modelo de regressão:
a suposição usual é que , é uma amostra de iid. Sob suposições de que e possui classificação completa, o estimador ordinário de mínimos quadrados:i = 1 , . . . , n E x i u i = 0 E ( x i x ′ i )(yi,xi,ui) i=1,...,n Exiui=0 E(xix′i)
é consistente e assintoticamente normal. A covariância esperada entre uma variável residual e a resposta é então:
Se, além disso, assumirmos que e , podemos calcular a covariância esperada entre e seu residual de regressão:E ( u 2 i | x 1 , . . . , X n ) = σ 2 y IE( uEu| x1 1, . . . , xn) = 0 E( u2Eu| x1 1, . . . , xn) = σ2 yEu
Agora, para obter a correlação, precisamos calcular e . Acontece quevar ( u i )Var ( yEu) Var ( u^Eu)
conseqüentemente
Agora o termo vem da diagonal da matriz do chapéu , onde . A matriz é idempotente, portanto, satisfaz uma propriedade a seguir H=X( X ' X ) - 1 X ' X=[ x i ,. . . , x N ] ′ Hx′Eu( ∑nj = 1xjx′j)- 1xEu H= X( X′X)- 1X′ X= [ xEu, . . . , xN]′ H
onde é o termo diagonal de . O é o número de variáveis linearmente independentes em , que geralmente é o número de variáveis. Vamos chamá-lo . O número de é o tamanho de amostra . Portanto, temos termos não-negativos que devem resumir a . Geralmente é muito maior que , portanto, muito estaria próximo do zero, significando que a correlação entre a variável residual e a resposta seria próxima de 1 na maior parte das observações. H classificação ( H ) x i p h i i N N p N p h i iheu eu H classificação ( H) xEu p heu eu N N p N p heu eu
O termo também é usado em vários diagnósticos de regressão para determinar observações influentes.heu eu
fonte
A correlação depende do . Se for alto, significa que grande parte da variação na sua variável dependente pode ser atribuída à variação nas suas variáveis independentes, e NÃO ao seu termo de erro.R 2R2 R2
No entanto, se for baixo, significa que grande parte da variação em sua variável dependente não está relacionada à variação em suas variáveis independentes e, portanto, deve estar relacionada ao termo do erro.R2
Considere o seguinte modelo:
Y XY= Xβ+ ε , onde e não estão correlacionados.Y X
Assumindo condições de regularidade suficientes para o CLT manter.
0XY Y =X β ε:=Y - Y =Y-0=YεYβ^ convergirá para , pois e não estão correlacionados. Portanto, sempre será zero. Assim, o . e estão perfeitamente correlacionados !!!0 X Y Y^=Xβ^ ε:=Y−Y^=Y−0=Y ε Y
Mantendo tudo o mais fixo, aumentar o diminuirá a correlação entre o erro e o dependente. Uma correlação forte não é necessariamente causa de alarme. Isso pode significar simplesmente que o processo subjacente é barulhento. No entanto, um baixo (e, portanto, alta correlação entre erro e dependente) pode ser devido à especificação incorreta do modelo.R 2R2 R2
fonte
Acho esse tópico bastante interessante e, infelizmente, as respostas atuais são incompletas ou parcialmente enganosas - apesar da relevância e da alta popularidade dessa pergunta.
Por definição do quadro OLS clássica não deve haver nenhuma relação entreeuŷ u^ , uma vez que os resíduos obtidos são por construção não correlacionadas comao derivar o estimador OLS. A propriedade de minimização da variância sob a homocedasticidade garante que o erro residual seja distribuído aleatoriamente em torno dos valores ajustados. Isso pode ser formalmente mostrado por: yŷ
= P σ 2 - P σ 2 = 0
Onde e são matrizes idempotentes definidas como: e .P P = X ( X ′ X ) X ′ M = I - PM P P=X(X′X)X′ M=I−P
Esse resultado é baseado em exogeneidade e homocedasticidade estritas e praticamente se mantém em amostras grandes. A intuição para a sua uncorrelatedness é o seguinte: os valores ajustadoscondicional em são centradas em torno de, que são pensados como forma independente e identicamente distribuído. No entanto, qualquer desvio a partir da estrita exogeneidade e homocedasticidade pressuposto poderia fazer com que as variáveis explanatórias que ser endógena e estimular uma correlação latente entree. X u u yŷ X û û ŷ
Agora, a correlação entre os resíduose o "original" é uma história completamente diferente:yû y
Alguns verificando a teoria e sabemos que essa matriz de covariância é idêntica à matriz de covariância do próprio residual (prova omitida). Nós temos:u^
Se quisermos calcular a covariância (escalar) entre e conforme solicitado pelo OP, obtemos:uy u^
(= soma das entradas diagonais da matriz de covariância e divida por N)
A fórmula acima indica um ponto interessante. Se testarmos o relacionamento regredindo nos resíduos (+ constante), o coeficiente de inclinação , que pode ser facilmente derivado quando dividimos a expressão acima por o .u p u , y = 1 Var ( u | X )y u^ βu^,y=1 Var(û |X)
Por outro lado, a correlação é a covariância padronizada pelos respectivos desvios-padrão. Agora, a matriz de variância dos resíduos é , enquanto que a variância de é . A correlação torna-se, portanto:y σ 2 ICorr(Y,U)σ2M y σ2I Corr(y,û )
Este é o resultado principal que deve conter uma regressão linear. A intuição é que o expressa o erro entre a variação verdadeira do termo de erro e um proxy para a variação com base nos resíduos. Observe que a variação de é igual à variação de mais a variação dos resíduos . Portanto, ele pode ser reescrito de forma mais intuitiva como: y y uCorr(y,û ) y y^ u^
Existem duas forças aqui no trabalho. Se temos um ótimo ajuste da linha de regressão, espera-se que a correlação seja baixa devido a . Por outro lado, é um pouco difícil de estimar, pois é incondicional e uma linha no espaço de parâmetros. Comparar variações incondicionais e condicionais dentro de uma proporção pode não ser um indicador apropriado, afinal. Talvez seja por isso que raramente é feito na prática.var ( y )Var(û )≈0 Var(y^)
Uma tentativa concluir a questão: A correlação entre eé positivo e relaciona-se com a relação entre a variação dos resíduos e a variância da verdadeira termo de erro, aproximado pelo variância incondicional em . Portanto, é um indicador um pouco enganador.u yy û y
Não obstante este exercício pode nos dar alguma intuição sobre o funcionamento e os pressupostos teóricos inerentes de uma regressão OLS, raramente avaliar a correlação entre e. Certamente existem testes mais estabelecidos para verificar propriedades do termo de erro verdadeiro. Em segundo lugar, tenha em mente que os resíduos não são o termo de erro, e os testes sobre resíduosque fazer previsões das características sobre o verdadeiro termo de erro são limitados e sua necessidade de validade sejam manuseadas com o máximo cuidado.u u uy û û u
Por exemplo, gostaria de destacar uma declaração feita por um pôster anterior aqui. Dizem que,
Eu acho que isso pode não ser totalmente válido neste contexto. Acredite ou não, mas os MQO resíduossão por construção feita para ser não correlacionadas com a variável independente . Para ver isso, considere:x kû xk
= X ′ y - X ′ X ( X ′ X ) X ′ y = X ′ y - X ′ y = 0
No entanto, você pode ter ouvido alegações de que uma variável explicativa está correlacionada com o termo do erro . Observe que tais afirmações são baseadas em suposições sobre toda a população com um verdadeiro modelo de regressão subjacente, que não observamos em primeira mão. Consequentemente, verificando a correlação entre e inútil num quadro OLS linear. Entretanto, ao testar a heterocedasticidade , levamos em consideração o segundo momento condicional, por exemplo, regredimos os resíduos quadrados em ou em uma função deu X Xy û X X , como geralmente ocorre com os estimadores de FGSL. Isso é diferente de avaliar a correlação simples. Espero que isso ajude a tornar as coisas mais claras.
fonte
A resposta do Adam está errada. Mesmo com um modelo que ajusta perfeitamente os dados, você ainda pode obter alta correlação entre resíduos e variável dependente. Essa é a razão pela qual nenhum livro de regressão solicita que você verifique essa correlação. Você pode encontrar a resposta no livro "Análise de regressão aplicada" do Dr. Draper.
fonte
Portanto, os resíduos são sua variação inexplicável, a diferença entre as previsões do seu modelo e o resultado real que você está modelando. Na prática, poucos modelos produzidos por regressão linear terão todos os resíduos próximos a zero, a menos que a regressão linear esteja sendo usada para analisar um processo mecânico ou fixo.
Idealmente, os resíduos do seu modelo devem ser aleatórios, o que significa que eles não devem ser correlacionados com suas variáveis independentes ou dependentes (o que você chama de variável de critério). Na regressão linear, seu termo de erro é normalmente distribuído; portanto, seus resíduos também devem ser normalmente distribuídos também. Se você tiver discrepâncias significativas ou se seus resíduos estiverem correlacionados com sua variável dependente ou com suas variáveis independentes, você terá um problema com seu modelo.
Se você tiver discrepâncias significativas e distribuição não normal de seus resíduos, os discrepantes podem estar distorcendo seus pesos (Betas), e eu sugeriria o cálculo do DFBETAS para verificar a influência de suas observações em seus pesos. Se seus resíduos estiverem correlacionados com sua variável dependente, haverá uma quantidade significativamente grande de variação inexplicável que você não está contabilizando. Você também pode ver isso se estiver analisando observações repetidas da mesma coisa, devido à autocorrelação. Isso pode ser verificado verificando se seus resíduos estão correlacionados com a sua variável de tempo ou índice. Se seus resíduos estão correlacionados com suas variáveis independentes, seu modelo é heterocedástico (consulte: http://en.wikipedia.org/wiki/Heteroscedasticity) Você deve verificar (se ainda não o fez) se suas variáveis de entrada são normalmente distribuídas e, caso contrário, considere dimensionar ou transformar seus dados (os tipos mais comuns são log e raiz quadrada) para torná-los mais normalizado.
No caso de ambos, seus resíduos e suas variáveis independentes, você deve fazer um QQ-Plot, bem como executar um teste de Kolmogorov-Smirnov (essa implementação específica às vezes é chamada de teste de Lilliefors) para garantir que seus valores ajuste uma distribuição normal.
Três coisas que são rápidas e podem ser úteis para lidar com esse problema: examinar a mediana de seus resíduos, devem ser o mais próximo possível de zero (a média quase sempre será zero como resultado de como o termo de erro é ajustado na regressão linear), um teste de Durbin-Watson para autocorrelação em seus resíduos (especialmente como mencionei antes, se você estiver observando várias observações das mesmas coisas) e a execução de um gráfico residual parcial o ajudará a procurar heterocedasticidade e valores extremos.
fonte