É frequentemente afirmado que o quadrado da correlação da amostra é equivalente ao coeficiente de determinação para regressão linear simples. Eu mesmo não consegui demonstrar isso e gostaria de ter uma prova completa desse fato.
regression
correlation
edwardsm88
fonte
fonte
Respostas:
Parece haver alguma variação na notação: em uma regressão linear simples, eu geralmente vistos a frase "coeficiente de correlação amostra" com símbolo como uma referência para a correlação entre os valores observados e valores. Esta é a notação que adotei para esta resposta. Também vi a mesma frase e símbolo usados para se referir à correlação entre observado e ajustado ; na minha resposta eu me referi a isso como o "coeficiente de correlação múltipla" e usou o símbolo . Esta resposta aborda por que o coeficiente de determinação é o quadrado de também o quadrado dex y y y R R Rr x y y y^ R r R , portanto, não importa qual uso foi planejado.
O resultado segue uma linha da álgebra quando alguns fatos simples sobre correlação e o significado de são estabelecidos; portanto, você pode preferir pular para a equação em caixa. Presumo que não precisamos provar propriedades básicas de covariância e variância, em particular: Rr2 R
Observe que o último pode ser derivado do primeiro, uma vez que sabemos que a covariância é simétrica e que . A partir daqui, derivamos outro fato básico, sobre correlação. Para , e desde que e tenham variações diferentes de zero,a ≠ 0 X YVar ( X) = Cov ( X, X) a ≠ 0 X Y
Aqui é a referência ou função de sinal : seu valor é se e se . Também é verdade que se , mas esse caso não nos interessa: seria uma constante, então em o denominador e não podemos calcular a correlação. Argumentos de simetria vamos generalizar esse resultado, para :sgn ( a ) = + 1 a > 0 sgn ( a ) = - 1 a < 0 sgn ( a ) = 0 a = 0 a X + b Var ( a X + b ) = 0 a ,sgn ( a ) sgn ( a ) = + 1 a > 0 sgn ( a ) = - 1 a < 0 sgn(a)=0 a=0 aX+b Var(aX+b)=0 a,c≠0
Não precisaremos dessa fórmula mais geral para responder à pergunta atual, mas a incluo para enfatizar a geometria da situação: ela simplesmente afirma que a correlação permanece inalterada quando uma variável é dimensionada ou traduzida, mas reverte o sinal quando uma variável é refletido.
Precisamos de mais um facto: de um modelo linear incluindo um termo constante, o coeficiente de determinação é o quadrado do múltiplo coeficiente de correlação , que representa a correlação entre as respostas observadas e valores equipada do modelo . Isto aplica-se tanto para múltipla e regressões simples, mas vamos restringir nossa atenção para o simples modelo linear de . O resultado segue a observação de que é uma versão em escala, possivelmente refletida e traduzida do : R Y Y Y = β 0 + β 1 X Y XR2 R Y Y^ Y^=β^0+β^1X Y^ X
Então onde o sinal corresponde ao sinal da inclinação estimada, o que garante que não seja negativo. Claramente .R R 2 = R 2R=±r R R2=r2
O argumento anterior foi simplificado por não ter que considerar somas de quadrados. Para conseguir isso, pulei os detalhes da relação entre , na qual normalmente pensamos em termos de soma de quadrados, e , na qual pensamos em correlações de respostas ajustadas e observadas. Os símbolos fazem a relação parecer tautológica, mas esse não é o caso, e a relação se decompõe se não houver um termo de interceptação no modelo! Vou fazer um breve esboço de um argumento geométrico sobre a relação entre e tirada de uma pergunta diferente : o diagrama é desenhado no espaço sujeito dimensional R R 2 = ( R ) 2 R R 2 n X 1 nR2 R R2=(R)2 R R2 n , então cada eixo (não mostrado) representa uma única unidade de observação e as variáveis são mostradas como vetores. As colunas da matriz de design são o vetor (para o termo constante) e o vetor de observações da variável explicativa; portanto, o espaço da coluna é um plano bidimensional.X 1 1n
O ajustado é a projeção ortogonal do observado no espaço da coluna de . Isso significa que o vetor de resíduos é perpendicular ao plano e, portanto, a . O produto escalar é . Como os resíduos somam zero e , então modo que as respostas ajustadas e observadas tem média . As linhas tracejadas no diagrama, e YXe=y-Y^ Y X 1n0=1N⋅e=Σ n i = 1 eiYi= ^ Y i +eiΣ n i =e = y - y^ 1 1n 0=1n⋅e=∑ni=1ei Yi=Yi^+ei ˉ Y Y- ˉ Y 1N Y∑ni=1Yi=∑ni=1Yi^ Y¯ Y−Y¯1n θ RY^−Y¯1n , são, por conseguinte, as centradas vectores para as respostas observadas e embutidos, e o co-seno do ângulo entre eles é a sua correlação .θ R
O triângulo que esses vetores formam com o vetor de resíduos é angular, pois fica no plano, mas é ortogonal a ele. Aplicando Pitágoras:eY^−Y¯1n e
Esta é apenas a decomposição da soma dos quadrados, . A fórmula convencional para o coeficiente de determinação é que neste triângulo é modo é de facto o quadrado de . Você pode estar mais familiarizado com a fórmula , que fornece imediatamente , mas observe que é mais geral e (como acabamos de ver) reduzirá para 1 - S S residualSStotal=SSresidual+SSregression 1-sin2θ=cos2θRR2=SS regressão1−SSresidualSStotal 1−sin2θ=cos2θ R cos2θ1-SS residualR2=SSregressionSStotal cos2θ SS regressão1−SSresidualSStotal SSregressionSStotal se um termo constante for incluído no modelo .
fonte
O é definido como O coeficiente de correlação da amostra ao quadrado: é equivalente, pois é facilmente verificado usando: (ver Verbeek , §2.4)R 2 = V ( y i )R2 r2(yi, y i)=
fonte