A correlação ou coeficiente de determinação está relacionada à porcentagem de valores que caem ao longo de uma linha de regressão?

12

Correlação, r , é uma medida de associação linear entre duas variáveis. O coeficiente de determinação, , é uma medida de quanto da variabilidade em uma variável pode ser "explicada por" variação na outra.r2

Por exemplo, se é a correlação entre duas variáveis, então . Portanto, 64% da variabilidade em um pode ser explicada por diferenças no outro. Certo?r=0.8r2=0.64

Minha pergunta é, para o exemplo declarado, alguma das seguintes afirmações está correta?

  1. 64% dos valores caem na linha de regressão
  2. 80% dos valores caem ao longo da linha de regressão
Bradex
fonte
O termo "cair junto" é impreciso. Parece que pelo menos algumas respostas o interpretam como "exatamente", e aí a resposta claramente não é (embora essa idéia possa levar a uma medida interessante de associação linear que pode ser adequada em algumas situações particulares - por exemplo, onde há houve uma mistura de nenhum ruído / erro durante a maior parte do tempo, e algum erro ocasionalmente, como em algum processo de contaminação - e você estaria estimando a proporção de dados não contaminados). Se você quis dizer algo diferente de "colocar exatamente", seria necessário especificar qual era esse significado.
Glen_b -Reinstar Monica

Respostas:

8

A primeira parte disso está basicamente correta - mas 64% da variação é explicada pelo modelo. Em uma regressão linear simples: Y ~ X, se é 0,64 isso significa que 64% da variação em Y é determinada pela relação linear entre Y e X. É possível ter uma forte relação com muito baixa R 2 , se o relacionamento for fortemente não linear.R2R2

Em relação às suas duas perguntas numeradas, nenhuma delas está correta. De fato, é possível que nenhum dos pontos esteja exatamente na linha de regressão. Não é isso que está sendo medido. Pelo contrário, é uma questão de quão próximo o ponto médio está da linha. Se todos ou quase todos os pontos estão perto (mesmo que nenhum deles está exatamente na linha), então será elevado. Se a maioria dos pontos estão longe de ser a linha, R 2 será baixo. Se a maioria dos pontos estiver próxima, mas alguns estiverem longe, a regressão está incorreta (problema de outliers). Outras coisas também podem dar errado.R2R2

Além disso, deixei a noção de "longe" bastante vaga. Isso vai depender de como os X estão espalhados. Tornar essas noções precisas faz parte do que você aprende em um curso sobre regressão; Eu não vou entrar aqui.

Peter Flom - Restabelece Monica
fonte
Bem, isso esclareceu muito para mim! Obrigado Mimshot e Peter Flom! Muito grato a vocês dois! :)
Bradex
1
+1, boa resposta, você se importaria em adicionar algo como "De fato, [é possível que] nenhum dos pontos possa estar ...". Além disso, pode valer a pena discutir que a noção de quão longe os pontos estão da linha também é relativa à extensão dos Xs.
gung - Restabelece Monica
15

Você está certo com a primeira parte de sua declaração. A maneira usual de interpretar o coeficiente de determinação é como a percentagem da variação da variável dependente y ( V um r ( y ) ) que são capazes de explicar com as variáveis explanatórias. A interpretação exacta e derivação do coeficiente de determinação R 2 podem ser encontrados aquiR2yVar(y)R2

http://economictheoryblog.com/2014/11/05/the-coefficient-of-determination-latex-r2/

No entanto, a interpretação de uma maneira menos conhecido do coeficiente de determinação é para interpretar como como o Coeficiente de Correlação quadrado de Pearson entre os valores observados y i e os valores ajustados y i . A prova de que o coeficiente de determinação é o equivalente do coeficiente de correlação de Pearson Squared entre os valores observados y i e os valores ajustados y i pode ser encontrada aquiR2yiy^iyiy^i

http://economictheoryblog.com/2014/11/05/proof/

Na minha vista estas são as únicas maneiras significativas de interpretar o coeficiente de determinação . Daqui resulta que as duas declarações feitas não pode ser derivada a partir do R 2 .R2R2

Michael
fonte
2
Não estou certo de que há apenas duas maneiras de interpretar ( certamente há mais de duas maneiras de interpretar r ), mas a razão segue-se que as duas declarações dadas não pode ser derivada a partir do R 2 é que eles são falsos ( pelas razões que @PeterFlom explica), em vez de nenhuma outra interpretação ser possível. Mas, caso contrário, acho que é uma boa resposta. R2rR2
Silverfish
2
Caso os links fornecidos fiquem inoperantes em algum momento no futuro (o linkrot é um problema eterno - preferimos tornar as respostas independentes, se possível, mas claramente essa pergunta não exige provas completas para que o link seja conveniente), temos alguns cobertura da relação entre e de R 2 , aqui , aqui , aqui e mais geometricamente, aqui . Corr(y,y^)R2
Silverfish
2

Niether 1 nem 2 está correto.

Digamos que você esteja tentando prever um conjunto de valores de um conjunto de valores xyyxx

yi=b+mxi+ϵi

ϵiN(0,σ2)R2=.64yx

y^i=b+mxi

Então

10.64=0.36=var(yyy^y^)var(yy)
Mimshot
fonte