Padronização vs. Normalização para Regressão Lasso / Ridge

9

Estou ciente de que é prática comum padronizar os recursos para regressão de cordões e laços, no entanto, seria mais prático normalizar os recursos em uma escala (0,1) como alternativa à padronização do escore z para esses métodos de regressão?

Steve
fonte

Respostas:

4

Se você aplicar a normalização (pressione [0,1]), você terá uma medida de importância relativa das variáveis, mas isso mudará a escala de suas variáveis ​​e você perderá toda a interpretabilidade do modelo. A vantagem da padronização é que você ainda pode interpretar o modelo como faria com a regressão OLS não regulamentada (isso já foi respondido aqui ).

Digio
fonte
3
O modelo regularizado está agindo de maneira muito diferente com ou sem normalização !! Especificamente, se não padronizarmos os recursos, teremos penalidades diferentes em diferentes recursos!
Haitao Du 26/06
11
Eu estava falando especificamente sobre interpretação do coeficiente de Lasso , não estimativa. Dado que as estimativas mudariam, eu ficaria curioso para saber como o modelo mudaria a interpretação.
Digio 27/06
11
Não me parece que a pergunta à qual você vincula sua resposta apóie o argumento que você está fazendo. Você poderia deixar mais explícito em seu post original por que a interpretação dos coeficientes de ols concorda com os coeficientes de laço somente quando os recursos são padronizados? Obrigado!
user795305
@ Ben, você entendeu mal a minha resposta (talvez seja minha culpa). A resposta à qual eu vinculei explica como os coeficientes do modelo no laço e na regressão simples (OLS ou não) são interpretados da mesma maneira - sob quaisquer circunstâncias (padronizadas ou não). Com a normalização (em qualquer tipo ou regressão paramétrica), você perde a escala original e não pode interpretar os coeficientes sem retrotransformação. Com a padronização, você interpreta o modelo da maneira normal.
Digio 23/10
0

A normalização é muito importante para métodos com regularização. Isso ocorre porque a escala das variáveis ​​afeta a quantidade de regularização aplicada a uma variável específica.

Por exemplo, suponha que uma variável esteja em uma escala muito grande, digamos, a ordem de milhões e outra variável seja de 0 a 1. Então, podemos pensar que a regularização terá pouco efeito na primeira variável.

Assim como normalizamos, normalizá-lo para 0 a 1 ou padronizar os recursos não importa muito.

Haitao Du
fonte
11
Esta resposta está afirmando o óbvio. Por "normalização", aqui, significa espremer todos os valores em [0,1], não é apenas mais uma palavra para padronização. A questão é sobre os efeitos da normalização em [0,1] vs. padronização ~ N (0,1) nos coeficientes do modelo.
Digio
O que significa normalizar para [0,1]? Existem muitas maneiras de conseguir isso. Qual é exatamente a sua recomendação para regressão penalizada?
Cagdas Ozgenc
11
Como a pergunta afirma "normalizar os recursos em uma escala (0,1)", embora talvez o redimensionamento de recursos seja um termo melhor, é uma técnica geral para produzir estimativas de coeficientes que expressam importância variável relativa (semelhante à medida de pureza de RF). Sim, existem muitas maneiras de conseguir isso e não é algo específico para a regressão penalizada, mas esta pergunta é sobre o efeito do redimensionamento de recursos (não padronização) no Lasso.
Digio
o que você quer dizer com "normalize para 0 a 1 ou padronize os recursos não importa muito"? Em que sentido isso não importa muito? Você poderia fornecer alguma intuição ou referência para esta reivindicação?
user795305