Explicando a variação de um modelo de regressão

13

Esta pode ser uma explicação simples (espero mesmo assim).

Fiz algumas análises de regressão no Matlab usando a caixa de ferramentas de regressão. No entanto, encontrei um estudo que afirma isso:

"Usando a análise de regressão, foi possível estabelecer um modelo preditivo usando apenas quatro recursos sônicos que explicam 60% da variação"

O link para o artigo está aqui, se necessário: Artigo

Não tenho 100% de certeza do que isso significa, mas espero que seja algo simples. Também é 60% uma coisa boa? Eu tentei procurar por isso, mas como sempre há uma porcentagem antes da palavra 'variação', é difícil encontrar resposta.

user1574598
fonte

Respostas:

9

Vou tentar explicar isso em termos simples.

O modelo de regressão enfoca o relacionamento entre uma variável dependente e um conjunto de variáveis independentes . A variável dependente é o resultado que você está tentando prever, usando uma ou mais variáveis ​​independentes.

Suponha que você tenha um modelo como este:

Peso_i = 3,0 + 35 * Altura_i + ε

Agora, uma das perguntas óbvias é: quão bem esse modelo funciona? Em outras palavras, quão bem a altura de uma pessoa prevê com precisão - ou explica - o peso dessa pessoa?

Antes de respondermos a essa pergunta, precisamos primeiro entender quanta flutuação observamos no peso das pessoas. Isso é importante, porque o que estamos tentando fazer aqui é explicar a flutuação (variação) de pesos entre pessoas diferentes, usando suas alturas. Se a altura das pessoas é capaz de explicar essa variação de peso, temos um bom modelo.

A variação é uma boa métrica a ser usada para esse fim, pois mede a distância em que um conjunto de números é distribuído (a partir do valor médio).

Isso nos ajuda a reformular nossa pergunta original: Quanta variação no peso de uma pessoa pode ser explicada pela sua altura ?

É daí que vem a “% de variação explicada”. A propósito, para análise de regressão, é igual ao coeficiente de correlação R ao quadrado .

Para o modelo acima, podemos ser capazes de fazer uma declaração como: Usando a análise de regressão, foi possível configurar um modelo preditivo usando a altura de uma pessoa que explica 60% da variação no peso ”.

Agora, quão bom é 60%? É difícil fazer um julgamento objetivo sobre isso. Mas se você tiver outros modelos concorrentes - digamos, outro modelo de regressão que use a idade de uma pessoa para prever seu peso - você poderá comparar diferentes modelos com base em quanta variação é explicada por eles e decidir qual modelo é melhor. (Existem algumas ressalvas a esse respeito, consulte 'Interpretação e uso de regressão' - Christopher H. Achen http://www.sagepub.in/books/Book450/authors )

Vishal
fonte
1
Isso certamente respondeu a uma grande proporção da minha pergunta. Em termos de por que os autores estão afirmando isso como de enorme importância, eu não sei. Portanto, se esse é o valor de R-sqaured e voltamos ao seu exemplo: digamos que usamos um modelo para 'idade' com variação de 80% e, em seguida, modelo para 'altura' com variação de 85 % para prever o peso de uma pessoa, considero que o último modelo seria mais significativo? Obrigado pelo link do livro, eu o comprei ontem à noite, pois usarei bastante a regressão nos próximos meses.
user1574598
1
Sim, você pode concluir que o último modelo é melhor em sua capacidade de prever (ou explicar) o peso de uma pessoa, ceteris paribus. BTW, você declarou isso como "o modelo teve uma variação de 80%", mas deve ser "o modelo explica 80% da variação".
Vishal 28/03
4

R2

Eu=1n(y^Eu-y¯)2Eu=1n(yEu-y¯)2

Onde yEu é o valor observado, y^Eu o valor ajustado de mínimos quadrados para o Euº ponto de dados e y¯é a média geral. Às vezes pensamos emR2 como proporção da variação explicada pelo modelo devido à decomposição da soma total dos quadrados

Eu=1n(yEu-y¯)2=Eu=1n(y^Eu-y¯)2+Eu=1n(yEu-y^Eu)2,

sendo o último termo um erro residual que não é contabilizado pelo modelo. oR2 basicamente nos diz quanto da variação geral foi "absorvida" pelos valores ajustados.

dsaxton
fonte