Penalidade de ponte x regularização da Rede Elástica

22

Algumas funções e aproximações de penalidade são bem estudadas, como o LASSO ( ) e o Ridge ( ) e como elas se comparam na regressão.L 2L1L2

Eu tenho lido sobre a penalidade de Bridge, que é a penalidade generalizada . Compare isso com o LASSO, que possui \ gama = 1 , e o Ridge, com \ gama = 2 , tornando-os casos especiais. γ = 1 γ = 2βjγγ=1γ=2

Wenjiang [ 1 ] comparou a penalidade de Bridge quando γ1 com o LASSO, mas não consegui encontrar uma comparação com a regularização da Elastic Net, uma combinação das penalidades de LASSO e Ridge, dadas como λ2β2+λ1β1 .

Essa é uma pergunta interessante, porque a rede elástica e essa ponte específica têm formas de restrição semelhantes. Compare esses círculos de unidades usando as diferentes métricas ( p é a potência da distância de Minkowski ):

Unidade circula para diferentes poderes da distância Minkowski

p=1 corresponde ao LASSO, p=2 ao cume p=1.4 a uma ponte possível. O Elastic Net foi gerado com igual ponderação na L1 e L2 penalidades. Essas figuras são úteis para identificar a escarsidade, por exemplo (que Bridge claramente não tem enquanto a Elastic Net a preserva do LASSO).

Então, como o Bridge com 1<γ<2 compara ao Elastic Net em relação à regularização (exceto a escarsidade)? Tenho um interesse especial no aprendizado supervisionado, portanto, talvez uma discussão sobre seleção / ponderação de recursos seja pertinente. A argumentação geométrica também é bem-vinda.

Talvez, mais importante, a Rede Elástica seja sempre mais desejável nesse caso?


[1] Fu, WJ (1998). Regressões penalizadas: a ponte versus o laço. Jornal de estatística computacional e gráfica, 7 (3), 397-416.


EDIT: Existe esta pergunta Como decidir qual medida de penalidade usar? quaisquer diretrizes gerais ou regras gerais fora do livro que mencionem superficialmente LASSO, Ridge, Bridge e Elastic Net, mas não há tentativas de compará-las.

Firebug
fonte
4
Apenas tangencialmente relacionado, mas se a penalidade da norma é a estimativa MAP de uma regressão bayesiana com anteriores independentes de Laplace nos coeficientes e o é o mesmo para os anteriores gaussianos, gostaria de saber se a penalidade da ponte é equivalente a um Subbotin anterior ... stats.stackexchange.com/questions/201038/…L 2L1L2
Sycorax diz Reinstate Monica
@RichardHardy Não há necessidade de escrever laços em todas as capitais, veja meu comentário aqui .
Ameba diz Reinstate Monica
2
Lembre-se de que a regressão em ponte permite que fornece uma regressão não convexa. Isso é bom em particular ao tentar selecionar grupos de covariáveis, especialmente a partir de dados esparsos. Ou, em geral, você poderia ter grupos predefinidos de covariáveis, que regularizariam para que nenhum grupo em particular seja grande e, em seguida, regularizaria coeficientes de grupo único para alcançar a escarsidade. Ou seja, se você escrever , onde , você poderá fazer . L 2 L 1 β = ( um 1 , , um k ) um i = ( β i 1 , β i 2 , , , β i r ) λ 1β γ i + λ 2 Σ ium i ν iγ<1L2L1β=(a1,,ak)ai=(βi1,βi2,,,βir)λ1βγi+λ2iaiνi
Alex R.
@AlexR. Na verdade, devo esclarecer que me refiro a . Eu não sabia que também era chamado de Bridge. γ < 1γ1γ<1
Firebug
1
@amoeba, tudo bem. Normalmente, não edito se o uso de maiúsculas for consistente ao longo do post, mas desta vez havia "LASSO" e "laço", então apenas optei pelo "LASSO", que foi a primeira forma no post. Eu sempre penso na sigla, por isso usei todas as maiúsculas; mas como você diz, um simples "laço" pode ser melhor.
Richard Hardy

Respostas:

20

A diferença entre regressão em ponte e rede elástica é uma questão fascinante, dadas as penalidades de aparência semelhante. Aqui está uma abordagem possível. Suponha que resolvamos o problema de regressão da ponte. Podemos então perguntar como a solução líquida elástica seria diferente. Observar os gradientes das duas funções de perda pode nos dizer algo sobre isso.

Regressão em ponte

Digamos é uma matriz que contém os valores da variável independente ( pontos x dimensões), é um vector que contém os valores da variável dependente, e é o vector peso.n d y wXndyw

A função de perda penaliza a norma dos pesos, com magnitude :λ bqλb

Lb(w)=yXw22+λbwqq

O gradiente da função de perda é:

wLb(w)=2XT(yXw)+λbq|w|(q1)sgn(w)

i v c i sgn ( w ) w qvc denota o poder Hadamard (isto é, em elementos), que fornece um vetor cujo ésimo elemento é . é a função de sinal (aplicada a cada elemento de ). O gradiente pode ser indefinido em zero para alguns valores de .ivicsgn(w)wq

Rede elástica

A função de perda é:

Le(w)=yXw22+λ1w1+λ2w22

Isso penaliza a norma dos pesos com magnitude e a norma com magnitude . O papel de rede elástica chama a minimização dessa função de perda de 'rede elástica ingênua' porque diminui duplamente os pesos. Eles descrevem um procedimento aprimorado no qual os pesos são redimensionados posteriormente para compensar o encolhimento duplo, mas vou apenas analisar a versão ingênua. É uma ressalva a ter em mente.λ 1 2 λ 21λ12λ2

O gradiente da função de perda é:

wLe(w)=2XT(yXw)+λ1sgn(w)+2λ2w

O gradiente é indefinido em zero quando porque o valor absoluto na penalidade não é diferenciável lá.1λ1>01

Aproximação

Digamos que selecionamos pesos que resolvem o problema de regressão da ponte. Isso significa que o gradiente de regressão da ponte é zero neste momento:w

wLb(w)=2XT(yXw)+λbq|w|(q1)sgn(w)=0

Assim sendo:

2XT(yXw)=λbq|w|(q1)sgn(w)

Podemos substituí-lo no gradiente líquido elástico, para obter uma expressão para o gradiente líquido elástico em . Felizmente, isso não depende mais diretamente dos dados:w

wLe(w)=λ1sgn(w)+2λ2wλbq|w|(q1)sgn(w)

Observando o gradiente líquido elástico em diz-nos: Dado que a regressão em ponte convergiu para pesos , como a rede elástica desejaria alterar esses pesos?w ww

Ele nos fornece a direção local e a magnitude da mudança desejada, porque o gradiente aponta na direção da subida mais íngreme e a função de perda diminui à medida que avançamos na direção oposta ao gradiente. O gradiente pode não apontar diretamente para a solução líquida elástica. Porém, como a função de perda líquida elástica é convexa, a direção / magnitude local fornece algumas informações sobre como a solução líquida elástica será diferente da solução de regressão em ponte.

Caso 1: verificação de sanidade

( ). A regressão de ponte nesse caso é equivalente a mínimos quadrados ordinários (OLS), porque a magnitude da penalidade é zero. A rede elástica é uma regressão de crista equivalente, porque somente a norma é penalizada. Os gráficos a seguir mostram diferentes soluções de regressão de ponte e como o gradiente líquido elástico se comporta para cada um.2λb=0,λ1=0,λ2=12

insira a descrição da imagem aqui

Gráfico à esquerda: gradiente líquido elástico x peso da regressão da ponte ao longo de cada dimensão

O eixo x representa um componente de um conjunto de pesos selecionado por regressão em ponte. O eixo y representa o componente correspondente do gradiente líquido elástico, avaliado em . Observe que os pesos são multidimensionais, mas estamos apenas olhando os pesos / gradiente ao longo de uma única dimensão.w ww

Gráfico à direita: alterações líquidas elásticas nos pesos da regressão em ponte (2d)

Cada ponto representa um conjunto de pesos 2d selecionados por regressão em ponte. Para cada escolha de , um vetor é plotado apontando na direção oposta ao gradiente líquido elástico, com magnitude proporcional à do gradiente. Ou seja, os vetores plotados mostram como a rede elástica deseja alterar a solução de regressão em ponte.w ww

Esses gráficos mostram que, comparada à regressão em ponte (OLS neste caso), a rede elástica (regressão em cordilheira neste caso) deseja encolher pesos para zero. A quantidade desejada de retração aumenta com a magnitude dos pesos. Se os pesos forem zero, as soluções são as mesmas. A interpretação é que queremos mover na direção oposta ao gradiente para reduzir a função de perda. Por exemplo, digamos que a regressão de ponte convergiu para um valor positivo para um dos pesos. O gradiente líquido elástico é positivo neste momento, portanto o líquido elástico deseja diminuir esse peso. Se estiver usando descida de gradiente, tomaremos medidas proporcionais em tamanho ao gradiente (é claro, não podemos tecnicamente usar descida de gradiente para resolver a rede elástica devido à não diferenciabilidade em zero,

Caso 2: ponte correspondente e rede elástica

( ). Eu escolhi os parâmetros de penalidade da ponte para corresponder ao exemplo da pergunta. Eu escolhi os parâmetros da rede elástica para dar a melhor penalidade de rede elástica correspondente. Aqui, os meios de melhor correspondência, dada uma distribuição específica de pesos, encontramos os parâmetros de penalidade líquida elástica que minimizam a diferença quadrática esperada entre as penalidades ponte e líquida:q=1.4,λb=1,λ1=0.629,λ2=0.355

minλ1,λ2E[(λ1w1+λ2w22λbwqq)2]

Aqui, considerei pesos com todas as entradas extraídas da distribuição uniforme em (ou seja, dentro de um hipercubo centrado na origem). Os parâmetros da rede elástica de melhor correspondência foram semelhantes para 2 a 1000 dimensões. Embora eles não pareçam ser sensíveis à dimensionalidade, os parâmetros de melhor correspondência dependem da escala da distribuição.[2,2]

Superfície de penalidade

Aqui está um gráfico de contorno da penalidade total imposta pela regressão em ponte ( ) e rede elástica de melhor correspondência ( ) como uma função dos pesos (para o caso 2d ):q=1.4,λb=100λ1=0.629,λ2=0.355

insira a descrição da imagem aqui

Comportamento do gradiente

insira a descrição da imagem aqui

Podemos ver o seguinte:

  • Seja o peso de regressão da ponte escolhida ao longo da dimensão .wjj
  • Se , a rede elástica deseja reduzir o peso para zero.|wj|<0.25
  • Se , a regressão em ponte e as soluções de rede elástica são as mesmas. Mas, a rede elástica quer se afastar se o peso diferir um pouco.|wj|0.25
  • Se , a rede elástica quer aumentar o peso.0.25<|wj|<1.31
  • Se , as soluções de regressão em ponte e rede elástica são as mesmas. A rede elástica quer avançar nesse ponto a partir de pesos próximos.|wj|1.31
  • Se , rede elástica quer diminuir o peso.|wj|>1.31

Os resultados são qualitativamente semelhantes se o valor de e / ou e encontrarmos o melhor correspondente . Os pontos em que as soluções de ponte e rede elástica coincidem mudam um pouco, mas o comportamento dos gradientes é similar.qλbλ1,λ2

Caso 3: ponte incompatível e rede elástica

λ 1 , λ 2 1 2(q=1.8,λb=1,λ1=0.765,λ2=0.225) . Nesse regime, a regressão em ponte se comporta de maneira semelhante à regressão em cordilheira. Encontrei o melhor correspondência , mas os troquei para que a rede elástica se comporte mais como um laço ( penalidade maior que penalidade ).λ1,λ212

insira a descrição da imagem aqui

Em relação à ponte de regressão, a rede elástica quer encolher pesos pequenos em direção a zero e aumentar pesos maiores. Há um único conjunto de pesos em cada quadrante em que a regressão da ponte e as soluções de rede elástica coincidem, mas a rede elástica quer se afastar desse ponto se os pesos diferirem um pouco.

1 q > 1 λ 1 , λ 2 2 1(q=1.2,λb=1,λ1=173,λ2=0.816) . Nesse regime, a penalidade de ponte é mais semelhante a uma penalidade (embora a regressão de ponte possa não produzir soluções esparsas com , conforme mencionado no papel líquido elástico). Encontrei o melhor correspondência , mas os troquei para que a rede elástica se comporte mais como regressão de crista ( penalidade maior que penalidade ).1q>1λ1,λ221

insira a descrição da imagem aqui

Em relação à ponte de regressão, a rede elástica quer aumentar pesos pequenos e diminuir pesos maiores. Há um ponto em cada quadrante em que a regressão da ponte e as soluções de rede elástica coincidem, e a rede elástica deseja avançar em direção a esses pesos a partir de pontos vizinhos.

user20160
fonte
3
(+1) Ótima resposta, obrigado pelo esforço! Você poderia abordar uma última coisa: "a rede elástica é sempre mais desejável?". Não precisa ser demorado;
Firebug
6
A regressão em ponte e a rede elástica são equivalentes à estimativa de MAP com diferentes tipos de anteriores nos pesos. Nesta perspectiva, parece que a melhor escolha seria a anterior que melhor corresponda ao processo de geração de dados e que nenhum dos métodos poderia ser melhor em todos os casos.
user20160
2
+6, resposta muito boa. Em relação ao seu comentário acima: qual anterior gera regressão em ponte? Eu sei que o prior gaussiano corresponde a ridge e Laplace antes do laço. Alguém pode de alguma forma combinar esses antecedentes para obter algo que corresponda à rede elástica?
Ameba diz Reinstate Monica
2
@amoeba A pergunta não foi direcionada a mim, eu sei, mas, como disse a GeneralAbrial na pergunta, provavelmente a ponte corresponde a um Subbotin anterior. A rede elástica, como esperado, está entre os priores gaussianos e laplacianos. Ver Li, Q. e Lin, N. (2010). A rede elástica bayesiana. Análise Bayesiana, 5 (1), 151-170. e Zou, H., & Hastie, T. (2005). Regularização e seleção de variáveis ​​via rede elástica. Jornal da Sociedade Estatística Real: Série B (Metodologia Estatística), 67 (2), 301-320. para uma breve comparação entre a rede elástica e a regressão em ponte.
Firebug
2
@amoeba, obrigado pela recompensa e chamando a atenção para este post, assim como para o outro post sobre PCA vs. redução de dimensionalidade não linear. É admirável que você use seu representante para promover as perguntas / respostas de outras pessoas, e fico feliz se este post é pelo menos de pequeno valor para as pessoas. Outros, obrigado também pelas amáveis ​​palavras.
User20160