Digamos que eu tenha duas matrizes unidimensionais, e . Cada um contém 100 pontos de dados. são os dados reais, e é a previsão do modelo. Nesse caso, o valor de seria:
Enquanto isso, isso seria igual ao valor quadrado do coeficiente de correlação,
Agora, se eu trocar os dois: é o dado real e é a previsão do modelo. Da equação , como o coeficiente de correlação não se importa com o que vem primeiro, ovalor deseria o mesmo. No entanto, a partir da equação,, ovalor irá mudar, porque ofoi alterado se mudardepara; Enquanto isso,não muda. ( 1 ) S S t S t = Σ i ( y i - ˉ y ) 2 R 2 S S t S t y a 1 um 2 S S r e s = Σ i ( f i - ˉ y ) 2
Minha pergunta é: como isso pode se contradizer?
Editar :
Fiquei me perguntando isso, será que o relacionamento na Eq. (2) ainda permanece, se não for uma regressão linear simples, ou seja, a relação entre IV e DV não é linear (poderia ser exponencial / log)?
Esse relacionamento ainda permanecerá, se a soma dos erros de previsão não for igual a zero?
correlation
r-squared
Shawn Wang
fonte
fonte
Respostas:
Isso é verdade que vai mudar ... mas você esqueceu o fato de que a soma de regressão dos quadrados de mudará também. Então, vamos considerar o modelo de regressão simples e denotar o coeficiente de correlação como r 2 x y = S 2 x ySSt o t , onde utilizado o sub-índicexypara salientar o facto de quexé a variável independente eyé a variável dependente. Obviamente,r2 x y é inalterado se você trocarxcomy. Podemos facilmente mostrar queSSRxY=SYY(R2 x y ), ondeSSRxyé a soma de regressão dos quadrados e r2x y= S2x ySx xSyy x y x y r2x y x y SSRx y= Syy( R2x y) SSRx y é a soma total dos quadrados em que x é independente e y é variável dependente. Portanto: R 2 x y = S S R x ySyy x y ondeSSExyé a soma residual dos quadrados correspondente em quexé independente eyé variável dependente. Observe que, neste caso, temosSSExy=b2 x y Sxxcomb=Sxy
fonte
Uma maneira de interpretar o coeficiente de determinação é olhar para isto como o Coeficiente de Correlação quadrado de Pearson entre os valores observados y i e os valores ajustados y i .R2 yi y^i
A prova completa de como derivar o coeficiente de determinação R2 do coeficiente de correlação ao quadrado de Pearson entre os valores observados yi e os valores ajustados y ^ i pode ser encontrada no seguinte link:
http://economictheoryblog.wordpress.com/2014/11/05/proof/
Aos meus olhos, deve ser bem fácil de entender, basta seguir os passos únicos. Acho que é essencial entender como a relação entre as duas figuras-chave realmente funciona.
fonte
Em caso de regressão linear simples com apenas um preditor . Porém, na regressão linear múltipla com mais de um preditores, o conceito de correlação entre os preditores e a resposta não se estende automaticamente. A fórmula obtém:R2=r2=Corr(x,y)2
O quadrado da correlação entre a resposta e o modelo linear ajustado.
fonte
O @Stat forneceu uma resposta detalhada. Na minha resposta curta, mostrarei brevemente de uma maneira um pouco diferente qual é a semelhança e a diferença entre e r 2 .r r2
é o coeficiente de regressão padronizadobetade Y por X ou de X por Y e, como tal, é uma medida dotamanho do efeito(mútuo). O que é mais claramente visto quando as variáveis são dicotômicas. Então r , por exemplo, .30 significa que 30% dos casos alteram seu valor para oposto em uma variável quando a outra variável altera seu valor para o oposto.r Y X X Y r .30
, por outro lado, é a expressão daproporção de co-variabilidadena variabilidade total: r 2 = ( c o vr2 . Observe que este é um produto de duas proporções, ou, mais precisamente, duas proporções (uma proporção pode ser> 1). Se, de maneira vaga, implicar que qualquer proporção ou razão seja quase probabilidade ou propensão, entãor2expressa "probabilidade conjunta (propensão)". Outra expressão válida para o produto conjunto de duas proporções (ou proporções) seria sua média geométrica,√r2=(covσxσy)2=|cov|σ2x|cov|σ2y r2 , que é muitor.prop∗prop−−−−−−−−−√ r
(Os dois índices são multiplicativos, não aditivo, para sublinhar a ideia de que eles colaboram e não pode compensar o outro, em seu trabalho de equipe. Eles têm que ser multiplicativo porque a magnitude do depende tanto magnitudes σ 2 x e σ 2 y e, conformably, c o v tem de ser dividido duas vezes em uma vez - a fim de converter-se a uma "proporção da variância compartilhada" adequada Mas. c o v , o "cross-variância", as ações da mesma medição unidades com ambos σ 2 x e σ 2cov σ2x σ2y cov cov σ2x , as "auto-variações", enãocomσxσy, a "variação híbrida"; é por isso quer2, e nãor, é mais adequado como a "proporção da variação compartilhada".)σ2y σxσy r2 r
Portanto, você vê que o significado de e r 2 como uma medida da quantidade da associação é diferente (ambos os significados válidos), mas ainda assim esses coeficientes não se contradizem. E ambos são o mesmo se você prever Y ~ X ou X ~ Y .r r2 Y~X X~Y
fonte
fonte