Quero entender completamente a noção de descrevendo a quantidade de variação entre variáveis. Toda explicação na web é um pouco mecânica e obtusa. Eu quero "entender" o conceito, não apenas usar mecanicamente os números.
Por exemplo: Horas estudadas versus pontuação no teste
= 0,8
= 0,64
- Então o que isso quer dizer?
- 64% da variabilidade dos resultados dos testes pode ser explicada por horas?
- Como sabemos disso apenas ao quadrado?
regression
correlation
variance
JackOfAll
fonte
fonte
Respostas:
Comece com a idéia básica de variação. Seu modelo inicial é a soma dos desvios ao quadrado da média. O valor R ^ 2 é a proporção dessa variação contabilizada usando um modelo alternativo. Por exemplo, o quadrado-R indica quanto da variação em Y você pode se livrar somando as distâncias ao quadrado de uma linha de regressão, em vez da média.
Acho que isso fica perfeitamente claro se pensarmos no simples problema de regressão traçado. Considere um gráfico de dispersão típico em que você tenha um preditor X ao longo do eixo horizontal e uma resposta Y ao longo do eixo vertical.
A média é uma linha horizontal no gráfico em que Y é constante. A variação total em Y é a soma das diferenças quadráticas entre a média de Y e cada ponto de dados individual. É a distância entre a linha média e cada ponto individual ao quadrado e somado.
Você também pode calcular outra medida de variabilidade depois de ter a linha de regressão do modelo. Essa é a diferença entre cada ponto Y e a linha de regressão. Em vez de cada quadrado (Y - a média), obtemos o quadrado (Y - o ponto na linha de regressão) ao quadrado.
Se a linha de regressão não for horizontal, obteremos menos distância total quando usarmos essa linha de regressão ajustada em vez da média - ou seja, haverá menos variação inexplicada. A razão entre a variação extra explicada e a variação original é o seu R ^ 2. É a proporção da variação original na sua resposta que é explicada ajustando essa linha de regressão.
Aqui está um código R para um gráfico com a média, a linha de regressão e os segmentos da linha de regressão para cada ponto para ajudar a visualizar:
fonte
Aqui está uma demonstração matemática da relação entre os dois: correlação de Pearson e análise de regressão de mínimos quadrados .
Não tenho certeza se existe uma intuição geométrica ou qualquer outra que possa ser oferecida além da matemática, mas se eu conseguir pensar em uma, atualizarei esta resposta.Atualização: Intuição Geométrica
Aqui está uma intuição geométrica que eu criei. Suponha que você tem duas variáveis e y que são média centrado. (Supondo que a média seja centralizada, vamos ignorar a interceptação que simplifica um pouco a intuição geométrica.) Vamos primeiro considerar a geometria da regressão linear. Na regressão linear, modelamos yx y y seguinte forma:
texto alternativo http://a.imageshack.us/img202/669/linearregression1.png
Pelo teorema de Pitágoras, temos:
Portanto, temos o relacionamento necessário:
Espero que ajude.
fonte
O applet Regression By Eye pode ser útil se você estiver tentando desenvolver alguma intuição.
Permite gerar dados e adivinhar um valor para R , que você pode comparar com o valor real.
fonte