Por que dizemos que a variável de resultado "regrediu" no (s) preditor (es)?

16

Existe alguma explicação intuitiva para essa terminologia? Por que é assim, e não o (s) preditor (es) está (s) sendo regredido (s) no resultado?

Idealmente, espero que uma explicação adequada de por que essa terminologia exista ajude os alunos a lembrá-la e os impeça de dizer o contrário.

user1205901 - Restabelecer Monica
fonte
11
Nós? Não sei se já disse isso - e discuti bastante sobre regressão. Se você conhece alguém que diz isso, talvez possa perguntar. (Eu tenho na ocasião disse " regrediu em " - mas para soaria um pouco estranho para mim)
Glen_b -Reinstate Monica
Obrigado - eu quis dizer "ligado" e não "ligado". Eu consertei isso agora.
User1205901 - Reinstala Monica 15/04

Respostas:

19

Não sei em que consiste a etimologia de "regredir", mas aqui está a interpretação que tenho em mente quando estou dizendo ou ouvindo essa expressão. Considere a figura a seguir de Os elementos do aprendizado estatístico de Hastie et al .:

regressão é projeção

Em seu núcleo, a regressão linear equivale à projeção ortogonal de em (para) X , onde y é o vetor n- dimensional de observações da variável dependente e X é o subespaço medido pelos vetores preditores.yXynX

Isto é muito interpretação útil da regressão linear.

Desde está sendo projetado em X , que é o que eu penso quando ouço que y é "regrediu em" X . Deste ponto de vista, não faria menos sentido dizer que X é regredido em y ou que y é regredido "contra" ou "com" X .yXyXXyyX

Idealmente, espero que uma explicação adequada de por que essa terminologia exista ajude os alunos a lembrá-la e os impeça de dizer o contrário.

Como disse, duvido que essa seja uma explicação do porquê dessa terminologia existir (talvez apenas do por que persiste?), Mas tenho certeza de que pode ajudar os alunos a lembrá-la.

ameba diz Restabelecer Monica
fonte
2
+1. Depende dos alunos! Essa é claramente uma maneira válida e proveitosa de conversar e pensar em níveis intermediários ou avançados. Se é responsável pela terminologia "on", eu me pergunto. Não faz muito tempo, era possível encontrar textos de regressão quase sem diagramas, sem falar em uma abordagem fortemente visual ou geométrica, embora isso agora seja totalmente padrão, enquanto eu acho que essa terminologia remonta há algumas décadas.
Nick Cox
(+1) A única maneira de obter o conceito de regressão através do meu crânio é pensar nela como a projeção de no espaço da coluna C ( A ) da matriz do modelo, que eu acho que é a interpretação geométrica que você está mostrando . yC(A)
Antoni Parellada 16/04
11
Essa é uma boa razão estatística para usar a terminologia. As razões sociais ou linguísticas pelas quais é popular podem ser diferentes!
Nick Cox
Só para esclarecer: concordo plenamente com o que o @NickCox disse nos comentários aqui.
Ameba diz Reinstate Monica
6

Eu sempre usei e ouvi esse modo de falar. Eu acho que a sequência que menciona o resultado ou a resposta antes dos preditores decorre de convenções por escrito, usando palavras ou usando notação ou misturando as duas, até

Y=Xβ

deixando de lado a questão igualmente interessante (ou desinteressante!) do que chamamos de diferentes tipos de variáveis.

Mas parece igualmente válido matematicamente e estatisticamente mencionar primeiro os preditores, assim como muitos matemáticos escrevem mapeamentos ou funções com argumentos primeiro.

O que muitas vezes conduz a sequência que usamos nas discussões estatísticas é que, cientificamente ou praticamente, temos uma idéia clara do que estamos tentando prever - é a mortalidade, a renda, o rendimento do trigo, os votos nas eleições ou o que quer que seja. - embora o conjunto de preditores potenciais ou reais possa não ser tão claro. Mesmo que seja claro, faz sentido mencionar as coisas importantes primeiro. O que você está tentando fazer? Prever o que quer . Como você vai fazer isso? Use algumas ou todas essas variáveis .

Não tenho uma história para "on", em vez de qualquer outra palavra que se encaixe. Não ouço "regredir contra" ou "regredir com". Pode não haver lógica aqui, apenas memes transmitidos em livros, ensinamentos e discussões.

Em geral, cuidado. Considere uma questão relacionada, o significado de "versus" . Fui criado para dizer "plot [variável do eixo vertical] contra (ou contra) x [variável do eixo horizontal]" e o inverso soa singularmente estranho para mim. No entanto, pessoas com considerável experiência e conhecimento têm o contrário. Às vezes, esse tipo de diferença pode ser atribuído a professores carismáticos e idiossincráticos que você imita desde que se sentou aos pés deles.yx

Nick Cox
fonte
+1. Mas minha interpretação pessoal de "regrediu" é via "projetada", veja minha resposta. Eu me pergunto se muitas pessoas pensam dessa expressão dessa maneira, ou sou apenas eu.
Ameba diz Reinstate Monica
3

1) O termo regressão deriva do fato de que, no modelo de regressão linear simples usual:

y=α+βx+ϵ

yxy^ , estão mais próximos da média do resultado,y¯, (após padronização) que a variável preditora, x, é o seu significado, x¯ (after standardization). Thus the outcome exhibits regression toward the mean.

|y^y¯|/sy<|xx¯|/sx

For example if we use the BOD data frame built into R then:

fm <- lm(demand ~ Time, BOD)
with(BOD, all( abs(fitted(fm) - mean(demand)) / sd(demand) < abs(scale(Time))))
## [1] TRUE

For a a proof see: https://en.wikipedia.org/wiki/Regression_toward_the_mean

2) The term on comes from the fact that the fitted values are the projection of the outcome variable onto the subspace spanned by the predictor variables (including the intercept) as further explained in many sources such as http://people.eecs.ku.edu/~jhuan/EECS940_S12/slides/linearRegression.pdf .

Note

Regarding the comment below, what the commenter is stating is what the answer already states above in formula form except that the answer states it correctly. In fact, due to the equality:

(y^y¯)=β^(xx¯)

the dependent variable is not necessarly on average closer to its mean than the predictor is to its mean unless |β|<1 . What is true is that the dependent variable is on average fewer standard deviations from its mean than the predictor is to its as stated in the formula in the answer.

Using Galton's data to which the comment refers (which is available in the UsingR package in R) I ran the regression and in fact the slope is 0.646 so the average child was closer to its mean than its parent was to its but that is not the general case. The current usage of regression to the mean is based on the correct general relationship which we showed in the answer. In the example shown in the R code in the answer above beta>1 so it is not true that the demand is necessarily closer to the mean demand than the Time is to the mean Time and we can readily check numerically in this example that it is not always closer. It is only true if we measure closeness in standard deviations as the inequality in the answer shows.

G. Grothendieck
fonte
1
I'm pretty sure that's not where the term regression comes from. In an early use of the term son's height was regressed on father's height; due to mean reversion findings showed sons of tall fathers tended to regress to the mean.
PaulB
While that was true for that particular dataset that is not in general true unless you measure closeness in terms of standard deviations but that is precisely what the inequality in the answer does so perhaps you just did not recognize it. In fact the modern notion is based on the correct formulation which I have stated and not on the incorrect formulation not involving standard deviation. I have expanded on this in the Note which I have added to the end of the answer.
G. Grothendieck
0

Personally, when it comes to explaining terminology, I find the definition of the term itself always helps, especially when explaining to students. The actual definition of the word regress is:

"return to a former or less developed state".

So one way to explain I guess would be the following:

"Thinking of the outcome as the fully developed state, we try to explain the outcome by using less developed states, i.e. the independent variables. Thus the outcome is regressed on the predictors."

Hope that helps.

EhsanF
fonte
1
There is more than one "actual definition". I would suggest that in statistical science the technical definition of regression as fitting a model (by default a linear model) is now primary and the historic sense.as captured by "regress to the mean", which remains interesting and some times useful, is secondary. I don't find it helpful to think that predictors in general are "less developed states", e.g. there is no sense in which predictor rainfall is a less developed state of outcome wheat yield. Either way, I don't see how this explains the expression.
Nick Cox
I see your point completely. Is there a way you could explain regression through the definition I posted? Because the way I would think of "less developed" isn't in the sense of rainfall being less developed than wheat yield, but more as the a something that can partly explain wheat yield.
EhsanF
1
If "less developed" doesn't mean less developed, I can't see that the wording helps at all.
Nick Cox