Correlação, , é uma medida de associação linear entre duas variáveis. O coeficiente de determinação, , é uma medida de quanto da variabilidade em uma variável pode ser "explicada por" variação na outra.
Por exemplo, se é a correlação entre duas variáveis, então . Portanto, 64% da variabilidade em um pode ser explicada por diferenças no outro. Certo?
Minha pergunta é, para o exemplo declarado, alguma das seguintes afirmações está correta?
- 64% dos valores caem na linha de regressão
- 80% dos valores caem ao longo da linha de regressão
regression
correlation
r-squared
Bradex
fonte
fonte
Respostas:
A primeira parte disso está basicamente correta - mas 64% da variação é explicada pelo modelo. Em uma regressão linear simples: Y ~ X, se é 0,64 isso significa que 64% da variação em Y é determinada pela relação linear entre Y e X. É possível ter uma forte relação com muito baixa R 2 , se o relacionamento for fortemente não linear.R2 R2
Em relação às suas duas perguntas numeradas, nenhuma delas está correta. De fato, é possível que nenhum dos pontos esteja exatamente na linha de regressão. Não é isso que está sendo medido. Pelo contrário, é uma questão de quão próximo o ponto médio está da linha. Se todos ou quase todos os pontos estão perto (mesmo que nenhum deles está exatamente na linha), então será elevado. Se a maioria dos pontos estão longe de ser a linha, R 2 será baixo. Se a maioria dos pontos estiver próxima, mas alguns estiverem longe, a regressão está incorreta (problema de outliers). Outras coisas também podem dar errado.R2 R2
Além disso, deixei a noção de "longe" bastante vaga. Isso vai depender de como os X estão espalhados. Tornar essas noções precisas faz parte do que você aprende em um curso sobre regressão; Eu não vou entrar aqui.
fonte
Você está certo com a primeira parte de sua declaração. A maneira usual de interpretar o coeficiente de determinação é como a percentagem da variação da variável dependente y ( V um r ( y ) ) que são capazes de explicar com as variáveis explanatórias. A interpretação exacta e derivação do coeficiente de determinação R 2 podem ser encontrados aquiR2 y Var(y) R2
http://economictheoryblog.com/2014/11/05/the-coefficient-of-determination-latex-r2/
No entanto, a interpretação de uma maneira menos conhecido do coeficiente de determinação é para interpretar como como o Coeficiente de Correlação quadrado de Pearson entre os valores observados y i e os valores ajustados y i . A prova de que o coeficiente de determinação é o equivalente do coeficiente de correlação de Pearson Squared entre os valores observados y i e os valores ajustados y i pode ser encontrada aquiR2 yi y^i yi y^i
http://economictheoryblog.com/2014/11/05/proof/
Na minha vista estas são as únicas maneiras significativas de interpretar o coeficiente de determinação . Daqui resulta que as duas declarações feitas não pode ser derivada a partir do R 2 .R2 R2
fonte
Niether 1 nem 2 está correto.
Digamos que você esteja tentando prever um conjunto de valores de um conjunto de valores xyy xx
Então
fonte