Confusão relacionada à normalização de dados

9

Estou tentando aprender um modelo de regressão linear. No entanto, tenho alguma confusão relacionada à normalização dos dados. Normalizei os recursos / preditores para zero média e variação de unidade. Preciso fazer o mesmo para o alvo. Se sim, por quê?

user34790
fonte
11
Por que você normalizou os recursos / preditores?
Peter Flom - Restabelece Monica
4
Aliás, acho que "padronizar" é um termo melhor para isso.
Scortchi - Restabelece Monica

Respostas:

6

Normalizar o alvo em regressão linear não importa. Na regressão linear, seu ajuste será da forma Quando os preditores estão centralizados, o termo constante sempre será a média do . Portanto, se você centralizar o antes de executar uma regressão, obterá , mas todos os seus outros coeficientes permanecerão inalterados.

y^Eu=uma0 0+umaxEu.
xEuuma0 0yEuyEuuma0 0=0 0

(Dito isto, normalizar os preditores - como você está fazendo atualmente - é uma boa idéia).

Stefan Wager
fonte
11
Por que normalizar os preditores é uma boa idéia?
Scortchi - Restabelece Monica
@Stefan. Sim, quando centralizo os preditores, recebo o termo constante como a média de y. Mas eu não entendi por que isso se torna ruim. Você pode me dizer a matemática por trás disso? uma0 0
usar o seguinte comando
2
@ Scortchi A normalização dos preditores não é necessária, mas pode facilitar a interpretação dos coeficientes da regressão: Após a normalização, os grandes coeficientes correspondem a preditores importantes. Além disso, sem normalização, os coeficientes dos termos de interação podem ser seriamente enganosos. Dito isto, a normalização não afetará as previsões que você obtém do seu modelo; portanto, a normalização só importa se você pretende interpretar os coeficientes na regressão.
Stefan Wager
11
@ user34790 A matemática é elaborada em pmean.com/10/LeastSquares.html
Stefan Wager