Vou tentar explicar isso em termos simples.
O modelo de regressão enfoca o relacionamento entre uma variável dependente e um conjunto de variáveis independentes . A variável dependente é o resultado que você está tentando prever, usando uma ou mais variáveis independentes.
Suponha que você tenha um modelo como este:
Peso_i = 3,0 + 35 * Altura_i + ε
Agora, uma das perguntas óbvias é: quão bem esse modelo funciona? Em outras palavras, quão bem a altura de uma pessoa prevê com precisão - ou explica - o peso dessa pessoa?
Antes de respondermos a essa pergunta, precisamos primeiro entender quanta flutuação observamos no peso das pessoas. Isso é importante, porque o que estamos tentando fazer aqui é explicar a flutuação (variação) de pesos entre pessoas diferentes, usando suas alturas. Se a altura das pessoas é capaz de explicar essa variação de peso, temos um bom modelo.
A variação é uma boa métrica a ser usada para esse fim, pois mede a distância em que um conjunto de números é distribuído (a partir do valor médio).
Isso nos ajuda a reformular nossa pergunta original: Quanta variação no peso de uma pessoa pode ser explicada pela sua altura ?
É daí que vem a “% de variação explicada”. A propósito, para análise de regressão, é igual ao coeficiente de correlação R ao quadrado .
Para o modelo acima, podemos ser capazes de fazer uma declaração como: Usando a análise de regressão, foi possível configurar um modelo preditivo usando a altura de uma pessoa que explica 60% da variação no peso ”.
Agora, quão bom é 60%? É difícil fazer um julgamento objetivo sobre isso. Mas se você tiver outros modelos concorrentes - digamos, outro modelo de regressão que use a idade de uma pessoa para prever seu peso - você poderá comparar diferentes modelos com base em quanta variação é explicada por eles e decidir qual modelo é melhor. (Existem algumas ressalvas a esse respeito, consulte 'Interpretação e uso de regressão' - Christopher H. Achen http://www.sagepub.in/books/Book450/authors )
OndeyEu é o valor observado, y^Eu o valor ajustado de mínimos quadrados para o Euº ponto de dados e y¯ é a média geral. Às vezes pensamos emR2 como proporção da variação explicada pelo modelo devido à decomposição da soma total dos quadrados
sendo o último termo um erro residual que não é contabilizado pelo modelo. oR2 basicamente nos diz quanto da variação geral foi "absorvida" pelos valores ajustados.
fonte