se deve redimensionar o indicador / binário / preditores fictícios para o LASSO

30

Para o LASSO (e outros procedimentos de seleção de modelo), é crucial redimensionar os preditores. A recomendação geral que sigo é simplesmente usar uma média de 0, 1 normalização de desvio padrão para variáveis ​​contínuas. Mas o que há com manequins?

Por exemplo, alguns exemplos aplicados da mesma (excelente) escola de verão que eu vinculei para redimensionar variáveis ​​contínuas para estar entre 0 e 1 (embora não seja bom para discrepantes), provavelmente para ser comparável aos manequins. Mas mesmo isso não garante que os coeficientes sejam da mesma ordem de magnitude e, portanto, penalizados de maneira semelhante, a principal razão para o reescalonamento, não?

László
fonte
2
Resposta curta - Não, manequins não RESCALE
Affine
4
Relacionado a isso
juliet 09/09
@ Julieth, muito obrigado, deixe-me saber se você encontrou algumas respostas desde então.
László

Respostas:

27

De acordo com Tibshirani ( O MÉTODO LASSO PARA SELEÇÃO VARIÁVEL NO MODO COX, Statistics in Medicine, VOL. 16, 385-395 (1997) ), que literalmente escreveu o livro sobre métodos de regularização, você deve padronizar os manequins. No entanto, você perde a interpretabilidade direta de seus coeficientes. Caso contrário, suas variáveis ​​não estão no mesmo campo. Você está basicamente inclinando a balança em favor de suas variáveis ​​contínuas (provavelmente). Portanto, se seu objetivo principal é a seleção de modelos, esse é um erro grave. No entanto, se você está mais interessado em interpretação, talvez essa não seja a melhor idéia.

A recomendação está na página 394:

O método do laço requer padronização inicial dos regressores, para que o esquema de penalização seja justo com todos os regressores. Para regressores categóricos, um codifica o regressor com variáveis ​​simuladas e depois padroniza as variáveis ​​simuladas. Conforme apontado por um árbitro, no entanto, a escala relativa entre variáveis ​​contínuas e categóricas nesse esquema pode ser um tanto arbitrária.

rocrat
fonte
3
você poderia fornecer uma referência precisa de onde Tibshirani sugere padronizar os manequins.
seanv507
@ seanv507 "... um codifica os regressores com variáveis ​​dummy e depois padroniza as variáveis ​​dummy ". Acho que a explicação rocrata está correta: em geral, você deseja que todos os preditores, incluindo manequins, tenham a mesma escala e variação para que a penalização seja justa.
Robert Kubrick
1
@RobertKubrick Eu discordo. A razão fundamental para a regularização é que pequenas mudanças devem ter pequenos efeitos. Portanto, o caso ideal é que todas as suas variáveis ​​tenham uma escala física natural para sua variável dependente e você não as normalize. Normalmente, não sabemos a escala correta, por isso recorremos à normalização. No entanto, as variáveis ​​categóricas têm uma escala natural, ou seja, a probabilidade de serem 0 ou 1: eu argumentaria que uma variável que é na maioria das vezes 0, é menos importante do que uma variável que alterna entre 0/1. Em vez disso, a resposta de Jeff parece apropriada.
Seanv507
8

A publicação no blog de Andrew Gelman, Quando padronizar as entradas de regressão e quando deixá-las em paz , também merece uma olhada. Esta parte em particular é relevante:

Para comparar coeficientes para diferentes preditores dentro de um modelo, a padronização é aceita. (Embora eu não padronize as entradas binárias. Eu as codifico como 0/1 e, em seguida, padronizo todas as outras entradas numéricas dividindo por dois desvios padrão, colocando-as aproximadamente na mesma escala das variáveis ​​0/1.)

Jeff
fonte
1
E quando ele diz "não padronize entradas binárias" , ele parece significar qualquer grupo de variáveis, como manequins para variáveis ​​categóricas?
smci
2
É verdade para os bits de comparação dos coeficientes ( ou seja, interpretação), mas, de uma perspectiva de regularização, essa recomendação não faz tanto sentido. Razão é que uma variável binária possui variação . Para obtém-se uma variação igual a , o que a coloca na mesma escala da recomendação, mas qualquer outra coisa além disso obtém-se uma variação progressivamente menor. É apenas melhor para padronizar a otimização, e depois relatar os coeficientes na escala original imo . p = 0,5 0,25p(1p)p=0.50.25
Firebug
o que ele quer dizer com "dois desvios-padrão"? Isso é ? x -> x / 2σ
21418 Alex
deixa pra lá, parece ser tudo explicado aqui: stat.columbia.edu/~gelman/research/unpublished/...
Alex
3

Isso é mais um comentário, mas muito longo. Um dos softwares mais usados ​​para laço (e amigos) é o R's glmnet. Na página de ajuda, impressa por ?glmnet:

padronizar: sinalizador lógico para padronização de variáveis ​​x, antes de ajustar a sequência do modelo. Os coeficientes são sempre retornados na escala original. O padrão é 'padronizar = VERDADEIRO'. Se as variáveis ​​já estiverem nas mesmas unidades, talvez você não queira padronizar. Veja os detalhes abaixo para a padronização y com 'family = "gaussian"'.

padronizar é um dos argumentos, o padrão é true. Portanto, as variáveis são geralmente padronizadas, e isso inclui manequins (já que não há menção a uma exceção para elas). Mas os coeficientes são relatados na escala original.X

kjetil b halvorsen
fonte