A padronização antes de Lasso é realmente necessária?

28

Eu li três razões principais para padronizar variáveis ​​antes de algo como Lassoregressão:

1) Interpretabilidade dos coeficientes.

2) Capacidade de classificar a importância do coeficiente pela magnitude relativa das estimativas de coeficiente pós-retração.

3) Não há necessidade de interceptação.

Mas estou pensando no ponto mais importante. Temos motivos para pensar que a padronização melhoraria a generalização fora da amostra do modelo? Também não me importo se não preciso de uma interceptação no meu modelo; adicionar um não me machuca.

Jase
fonte
11
Esclarecimento: você parece querer perguntar: "Desde que a padronização seja opcional (um dos casos especiais em que os resultados não são distorcidos por magnitudes diferentes), a padronização melhorará a generalização fora da amostra?" Isso está correto?
Drew75
@ Drew75 Prefiro uma repartição de casos, por exemplo, ajuda quando os resultados são "distorcidos por diferentes magnitudes", ajuda quando os resultados não são distorcidos etc., etc., a melhor resposta cobre situações diferentes.
Jase
11
Então sua pergunta não é sobre Lasso (porque em geral a padronização é necessária antes de Lasso). É mais geral. Talvez mude o título e a primeira frase da pergunta.
Drew75
@ Drew: Isso é bastante questionador: por que é necessário (quando não é?)? O que significa distorcer os resultados (em comparação com o que?)? Eu acho que a pergunta está boa como está.
Scortchi - Restabelece Monica
@ Drew75 Minha pergunta é sobre Lasso.
Jase

Respostas:

21

A regressão do laço impõe restrições ao tamanho dos coeficientes associados a cada variável. No entanto, esse valor dependerá da magnitude de cada variável. Portanto, é necessário centralizar e reduzir ou padronizar as variáveis.

O resultado da centralização das variáveis ​​significa que não há mais interceptação. Isso se aplica igualmente à regressão de crista, a propósito.

Outra boa explicação é este post: Necessidade de centralizar e padronizar dados em regressão

Drew75
fonte
Isso não é uma resposta ou uma resposta extremamente indireta à minha pergunta. Por favor, explique o link entre sua resposta e a generalização fora da amostra (que foi a pergunta).
Jase
10
@Jase: aborda o principal motivo da padronização, que você omitiu da sua lista: se você deseja eliminar preditores com pequenos coeficientes (ou usar um termo de penalidade dependendo da magnitude do coeficiente), precisa decidir o que conta como "pequeno " Embora a padronização não seja obrigatória antes do LASSO ou de outros métodos de regressão penalizados, raramente é o caso em que as escalas originais em que os preditores sejam medidos sejam úteis para esse fim.
Scortchi - Restabelece Monica
3
E o ponto sobre a centralização é que você geralmente não deseja interromper ou reduzir a interceptação.
Scortchi - Restabelece Monica
2
λ
2
Em termos gerais, o quanto você encolhe no geral afetará a generalização em amostras aleatórias; a decisão um tanto arbitrária de quanto diminuir cada preditor em relação aos outros afetará a generalização para novas amostras de populações semelhantes, onde os coeficientes são um pouco diferentes, onde a distribuição dos preditores não é necessariamente muito parecida com a do conjunto de treinamento , & c. (É claro que sua pergunta merece uma resposta mais completa.)
Scortchi - Reinstate Monica
2

O parâmetro de penalidade L1 é uma soma dos termos beta absolutos. Se as variáveis ​​têm dimensões diferentes, esse termo não é realmente aditivo, embora matematicamente não exista nenhum erro.

No entanto, não vejo as variáveis ​​fictícias / categóricas que sofrem com esse problema e acho que elas não precisam ser padronizadas. padronizá-las pode reduzir a interpretabilidade das variáveis

Sumit Dhar
fonte