Relações entre

40

Digamos que eu tenha duas matrizes unidimensionais, $a_1$ e $a_2$ . Cada um contém 100 pontos de dados. $a_1$ são os dados reais, e $a_2$ é a previsão do modelo. Nesse caso, o valor de $R^2$ seria:

R^{2} = 1 - \frac{S S_{r e s}}{S S_{t o t}} (1) .

$R^2 = 1 - \frac{SS_{res}}{SS_{tot}} \quad\quad\quad\quad\quad\ \ \quad\quad(1).$ Enquanto isso, isso seria igual ao valor quadrado do coeficiente de correlação,

R^{2} = (Correlation Coefficient)^{2} (2) .

$R^2 = (\text{Correlation Coefficient})^2 \quad (2).$ Agora, se eu trocar os dois:

a_{2}

$a_2$ é o dado real e

a_{1}

$a_1$ é a previsão do modelo. Da equação

(2)

$(2)$ , como o coeficiente de correlação não se importa com o que vem primeiro, ovalor deseria o mesmo. No entanto, a partir da equação,, ovalor irá mudar, porque ofoi alterado se mudardepara; Enquanto isso,não muda.

R^{2}

$R^2$

(1)

$(1)$

S S_{t o t} = \sum_{i} (y_{i} - \bar{y})^{2}

$SS_{tot}=\sum_i(y_i - \bar y )^2$

R^{2}

$R^2$

S S_{t o t}

$SS_{tot}$

y

$y$

a_{1}

$a_1$

a_{2}

$a_2$

S S_{r e s} = \sum_{i} (f_{i} - \bar{y})^{2}

$SS_{res}=\sum_i(f_i-\bar y)^2$

Minha pergunta é: como isso pode se contradizer?

Editar :

Fiquei me perguntando isso, será que o relacionamento na Eq. (2) ainda permanece, se não for uma regressão linear simples, ou seja, a relação entre IV e DV não é linear (poderia ser exponencial / log)?
Esse relacionamento ainda permanecerá, se a soma dos erros de previsão não for igual a zero?

correlation r-squared Shawn Wang
fonte

Achei esta apresentação muito útil e não técnica: google.com/…

ihadanny 22/09/2015

19

Isso é verdade que vai mudar ... mas você esqueceu o fato de que a soma de regressão dos quadrados de mudará também. Então, vamos considerar o modelo de regressão simples e denotar o coeficiente de correlação como $SS_{tot}$ , onde utilizado o sub-índicepara salientar o facto de queé a variável independente eé a variável dependente. Obviamente, é inalterado se você trocarcom. Podemos facilmente mostrar que, ondeé a soma de regressão dos quadrados e $r_{xy}^2=\dfrac{S_{xy}^2}{S_{xx}S_{yy}}$ $xy$ $x$ $y$ $r_{xy}^2$ $x$ $y$ $SSR_{xy}=S_{yy}(R_{xy}^2)$ $SSR_{xy}$ é a soma total dos quadrados em que é independente e é variável dependente. Portanto: $S_{yy}$ $x$ $y$ ondeé a soma residual dos quadrados correspondente em queé independente eé variável dependente. Observe que, neste caso, temoscom

R_{x y}^{2} = \frac{S S R_{x y}}{S_{y y}} = \frac{S_{y y} - S S E_{x y}}{S_{y y}},

$R_{xy}^2=\dfrac{SSR_{xy}}{S_{yy}}=\dfrac{S_{yy}-SSE_{xy}}{S_{yy}},$

S S E_{x y}

$SSE_{xy}$

x

$x$

y

$y$

S S E_{x y} = b_{x y}^{2} S_{x x}

$SSE_{xy}=b^2_{xy}S_{xx}$

(Veja, por exemplo, a Eq. (34) - (41)aqui.) Portanto:

b = \frac{S_{x y}}{S_{x x}}

$b=\dfrac{S_{xy}}{S_{xx}}$

Claramente, a equação acima é simétrica em relação a

e

. Por outras palavras:

Para resumir quando você altera

com

no modelo de regressão simples, numerador e denominador de

R_{x y}^{2} = \frac{S_{y y} - \frac{S_{x y}^{2}}{S_{x x}^{2}} . S_{x x}}{S_{y y}} = \frac{S_{y y} S_{x x} - S_{x y}^{2}}{S_{x x} . S_{y y}} .

$R_{xy}^2=\dfrac{S_{yy}-\dfrac{S^2_{xy}}{S^2_{xx}}.S_{xx}}{S_{yy}}=\dfrac{S_{yy}S_{xx}-S^2_{xy}}{S_{xx}.S_{yy}}.$

x

$x$

y

$y$

R_{x y}^{2} = R_{y x}^{2} .

$R_{xy}^2=R_{yx}^2.$

x

$x$

y

$y$

irá mudar de uma maneira que

R_{x y}^{2} = \frac{S S R_{x y}}{S_{y y}}

$R_{xy}^2=\dfrac{SSR_{xy}}{S_{yy}}$

R_{x y}^{2} = R_{y x}^{2} .

$R_{xy}^2=R_{yx}^2.$

Stat
fonte

Muito obrigado! Percebi que isso pode estar errado:

só permanece se 1) a previsão do modelo for uma linha reta e 2) a média da previsão do modelo for igual à média dos pontos da amostra. Se o relacionamento entre o DV e IV não for uma linha reta ou a soma dos erros de previsão for diferente de zero, o relacionamento não será válido. Você poderia me informar se isso está correto?

R^{2} = r^{2}

$R^2 = r^2$

Shawn Wang

1

Eu pensei sobre isso, porque você tem sido usando

, enquanto eu estava usando a equação eu postei no OP. Essas duas equações são equivalentes apenas quando a soma dos erros de previsão é zero. Portanto, no meu OP,

não muda enquanto

mudou e, portanto, o

R^{2} = S S_{r e g} / S S_{t o t}

$R^2=SS_{reg}/SS_{tot}$

S S_{r e s} = \sum_{i} (f_{i} - \bar{y})^{2}

$SS_{res}=\sum_i(f_i-\bar y)^2$

S S_{t o t}

$SS_{tot}$

R^{2}

$R^2$ Mudou.

Shawn Wang

Você tem uma referência sobre como resolver isso no caso geral de gaussianos com variabilidade p?

jmb

26

Uma maneira de interpretar o coeficiente de determinação é olhar para isto como o Coeficiente de Correlação quadrado de Pearson entre os valores observados e os valores ajustados . $R^{2}$ $y_{i}$ $\hat{y}_{i}$

A prova completa de como derivar o coeficiente de determinação R2 do coeficiente de correlação ao quadrado de Pearson entre os valores observados yi e os valores ajustados y ^ i pode ser encontrada no seguinte link:

http://economictheoryblog.wordpress.com/2014/11/05/proof/

Aos meus olhos, deve ser bem fácil de entender, basta seguir os passos únicos. Acho que é essencial entender como a relação entre as duas figuras-chave realmente funciona.

Andreas Dibiasi
fonte

6

Em caso de regressão linear simples com apenas um preditor . Porém, na regressão linear múltipla com mais de um preditores, o conceito de correlação entre os preditores e a resposta não se estende automaticamente. A fórmula obtém: $R^2 = r^2 = Corr(x,y)^2$

R^{2} = C o r r (y_{e s t i m a t e d}, y_{o b s e r v e d})^{2}

$R^2 = Corr(y_{estimated},y_{observed})^2$

O quadrado da correlação entre a resposta e o modelo linear ajustado.

um homem
fonte

5

O @Stat forneceu uma resposta detalhada. Na minha resposta curta, mostrarei brevemente de uma maneira um pouco diferente qual é a semelhança e a diferença entre e . $r$ $r^2$

é o coeficiente de regressão padronizadobetade por ou de por e, como tal, é uma medida dotamanho do efeito(mútuo). O que é mais claramente visto quando as variáveis são dicotômicas. Então , por exemplo, significa que 30% dos casos alteram seu valor para oposto em uma variável quando a outra variável altera seu valor para o oposto. $r$ $Y$ $X$ $X$ $Y$ $r$ $.30$

, por outro lado, é a expressão daproporção de co-variabilidadena variabilidade total: $r^2$ . Observe que este é um produto de duas proporções, ou, mais precisamente, duas proporções (uma proporção pode ser> 1). Se, de maneira vaga, implicar que qualquer proporção ou razão seja quase probabilidade ou propensão, entãoexpressa "probabilidade conjunta (propensão)". Outra expressão válida para o produto conjunto de duas proporções (ou proporções) seria sua média geométrica, $r^2 = (\frac {cov}{\sigma_x \sigma_y})^2 = \frac {|cov|} {\sigma_x^2} \frac {|cov|} {\sigma_y^2}$ $r^2$ , que é muito. $\sqrt{prop*prop}$ $r$

(Os dois índices são multiplicativos, não aditivo, para sublinhar a ideia de que eles colaboram e não pode compensar o outro, em seu trabalho de equipe. Eles têm que ser multiplicativo porque a magnitude do depende tanto magnitudes e e, conformably, tem de ser dividido duas vezes em uma vez - a fim de converter-se a uma "proporção da variância compartilhada" adequada Mas. , o "cross-variância", as ações da mesma medição unidades com ambos e $cov$ $\sigma_x^2$ $\sigma_y^2$ $cov$ $cov$ $\sigma_x^2$ , as "auto-variações", enãocom, a "variação híbrida"; é por isso que, e não, é mais adequado como a "proporção da variação compartilhada".) $\sigma_y^2$ $\sigma_x \sigma_y$ $r^2$ $r$

Portanto, você vê que o significado de e como uma medida da quantidade da associação é diferente (ambos os significados válidos), mas ainda assim esses coeficientes não se contradizem. E ambos são o mesmo se você prever ou . $r$ $r^2$ $Y\text~X$ $X\text~Y$

ttnphns
fonte

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

Coeficiente de determinação ou R-quadrado é um conceito mais amplo que r ^ 2, que trata apenas de regressão linear simples. Por favor, leia wikipedia en.wikipedia.org/wiki/Coefficient_of_determination .

precisa saber é o seguinte

Obrigado novamente! Isso eu entendo. Minha pergunta é: para regressões mais complexas, ainda posso elevar o valor de r para obter o coeficiente de determinação?

Shawn Wang

1

Para uma "regressão complexa", você obtém R-quadrado, mas não obtém r.

precisa saber é o seguinte

1

$R^2=r^2$ $R^2$

x=rnorm(1000); y=rnorm(1000)              # store random data
summary(lm(y~x))                          # fit a linear regression model (a)
summary(lm(x~y))                          # swap variables and fit the opposite model (b)
z=lm(y~x)$fitted.values; summary(lm(y~z)) # substitute predictions for IV in model (a)

$R^2$ $R^2$

$R^2\ne r^2$ $R^2$ $r$ $\rho$

Nick Stauner
fonte

1

R^{2} = - 0.1468

$R^2=–0.1468$

S S R > S S T

$SSR>SST$

- R^{2}

$-R^2$

R^{2}

$R^2$

Relações entre

Respostas: