Existe alguma explicação intuitiva para essa terminologia? Por que é assim, e não o (s) preditor (es) está (s) sendo regredido (s) no resultado?
Idealmente, espero que uma explicação adequada de por que essa terminologia exista ajude os alunos a lembrá-la e os impeça de dizer o contrário.
regression
terminology
teaching
user1205901 - Restabelecer Monica
fonte
fonte
Respostas:
Não sei em que consiste a etimologia de "regredir", mas aqui está a interpretação que tenho em mente quando estou dizendo ou ouvindo essa expressão. Considere a figura a seguir de Os elementos do aprendizado estatístico de Hastie et al .:
Em seu núcleo, a regressão linear equivale à projeção ortogonal de em (para) X , onde y é o vetor n- dimensional de observações da variável dependente e X é o subespaço medido pelos vetores preditores.y X y n X
Isto é muito interpretação útil da regressão linear.
Desde está sendo projetado em X , que é o que eu penso quando ouço que y é "regrediu em" X . Deste ponto de vista, não faria menos sentido dizer que X é regredido em y ou que y é regredido "contra" ou "com" X .y X y X X y y X
Como disse, duvido que essa seja uma explicação do porquê dessa terminologia existir (talvez apenas do por que persiste?), Mas tenho certeza de que pode ajudar os alunos a lembrá-la.
fonte
Eu sempre usei e ouvi esse modo de falar. Eu acho que a sequência que menciona o resultado ou a resposta antes dos preditores decorre de convenções por escrito, usando palavras ou usando notação ou misturando as duas, até
deixando de lado a questão igualmente interessante (ou desinteressante!) do que chamamos de diferentes tipos de variáveis.
Mas parece igualmente válido matematicamente e estatisticamente mencionar primeiro os preditores, assim como muitos matemáticos escrevem mapeamentos ou funções com argumentos primeiro.
O que muitas vezes conduz a sequência que usamos nas discussões estatísticas é que, cientificamente ou praticamente, temos uma idéia clara do que estamos tentando prever - é a mortalidade, a renda, o rendimento do trigo, os votos nas eleições ou o que quer que seja. - embora o conjunto de preditores potenciais ou reais possa não ser tão claro. Mesmo que seja claro, faz sentido mencionar as coisas importantes primeiro. O que você está tentando fazer? Prever o que quer . Como você vai fazer isso? Use algumas ou todas essas variáveis .
Não tenho uma história para "on", em vez de qualquer outra palavra que se encaixe. Não ouço "regredir contra" ou "regredir com". Pode não haver lógica aqui, apenas memes transmitidos em livros, ensinamentos e discussões.
Em geral, cuidado. Considere uma questão relacionada, o significado de "versus" . Fui criado para dizer "plot [variável do eixo vertical] contra (ou contra) x [variável do eixo horizontal]" e o inverso soa singularmente estranho para mim. No entanto, pessoas com considerável experiência e conhecimento têm o contrário. Às vezes, esse tipo de diferença pode ser atribuído a professores carismáticos e idiossincráticos que você imita desde que se sentou aos pés deles.y x
fonte
1) O termo regressão deriva do fato de que, no modelo de regressão linear simples usual:
For example if we use the BOD data frame built into R then:
For a a proof see: https://en.wikipedia.org/wiki/Regression_toward_the_mean
2) The term on comes from the fact that the fitted values are the projection of the outcome variable onto the subspace spanned by the predictor variables (including the intercept) as further explained in many sources such as http://people.eecs.ku.edu/~jhuan/EECS940_S12/slides/linearRegression.pdf .
Note
Regarding the comment below, what the commenter is stating is what the answer already states above in formula form except that the answer states it correctly. In fact, due to the equality:
the dependent variable is not necessarly on average closer to its mean than the predictor is to its mean unless|β|<1 . What is true is that the dependent variable is on average fewer standard deviations from its mean than the predictor is to its as stated in the formula in the answer.
Using Galton's data to which the comment refers (which is available in the UsingR package in R) I ran the regression and in fact the slope is 0.646 so the average child was closer to its mean than its parent was to its but that is not the general case. The current usage of regression to the mean is based on the correct general relationship which we showed in the answer. In the example shown in the R code in the answer abovebeta>1 so it is not true that the demand is necessarily closer to the mean demand than the Time is to the mean Time and we can readily check numerically in this example that it is not always closer. It is only true if we measure closeness in standard deviations as the inequality in the answer shows.
fonte
Personally, when it comes to explaining terminology, I find the definition of the term itself always helps, especially when explaining to students. The actual definition of the word regress is:
"return to a former or less developed state".
So one way to explain I guess would be the following:
"Thinking of the outcome as the fully developed state, we try to explain the outcome by using less developed states, i.e. the independent variables. Thus the outcome is regressed on the predictors."
Hope that helps.
fonte