Penalidade de ponte x regularização da Rede Elástica

A diferença entre regressão em ponte e rede elástica é uma questão fascinante, dadas as penalidades de aparência semelhante. Aqui está uma abordagem possível. Suponha que resolvamos o problema de regressão da ponte. Podemos então perguntar como a solução líquida elástica seria diferente. Observar os gradientes das duas funções de perda pode nos dizer algo sobre isso.

Regressão em ponte

Digamos é uma matriz que contém os valores da variável independente ( pontos x dimensões), é um vector que contém os valores da variável dependente, e é o vector peso. $X$ $n$ $d$ $y$ $w$

A função de perda penaliza a norma dos pesos, com magnitude : $\ell_q$ $\lambda_b$

L_{b} (w) = ‖ y - X w ‖_{2}^{2} + λ_{b} ‖ w ‖_{q}^{q}

$L_b(w) = \| y - Xw\|_2^2 + \lambda_b \|w\|_q^q$

O gradiente da função de perda é:

\nabla_{w} L_{b} (w) = - 2 X^{T} (y - X w) + λ_{b} q | w |^{\circ (q - 1)} sgn (w)

$\nabla_w L_b(w) = -2 X^T (y - Xw) + \lambda_b q |w|^{\circ(q-1)} \text{sgn}(w)$

$v^{\circ c}$ denota o poder Hadamard (isto é, em elementos), que fornece um vetor cujo ésimo elemento é . é a função de sinal (aplicada a cada elemento de ). O gradiente pode ser indefinido em zero para alguns valores de . $i$ $v_i^c$ $\text{sgn}(w)$ $w$ $q$

Rede elástica

A função de perda é:

L_{e} (w) = ‖ y - X w ‖_{2}^{2} + λ_{1} ‖ w ‖_{1} + λ_{2} ‖ w ‖_{2}^{2}

$L_e(w) = \|y - Xw\|_2^2 + \lambda_1 \|w\|_1 + \lambda_2 \|w\|_2^2$

Isso penaliza a norma dos pesos com magnitude e a norma com magnitude . O papel de rede elástica chama a minimização dessa função de perda de 'rede elástica ingênua' porque diminui duplamente os pesos. Eles descrevem um procedimento aprimorado no qual os pesos são redimensionados posteriormente para compensar o encolhimento duplo, mas vou apenas analisar a versão ingênua. É uma ressalva a ter em mente. $\ell_1$ $\lambda_1$ $\ell_2$ $\lambda_2$

O gradiente da função de perda é:

\nabla_{w} L_{e} (w) = - 2 X^{T} (y - X w) + λ_{1} sgn (w) + 2 λ_{2} w

$\nabla_w L_e(w) = -2 X^T (y - Xw) + \lambda_1 \text{sgn}(w) + 2 \lambda_2 w$

O gradiente é indefinido em zero quando porque o valor absoluto na penalidade não é diferenciável lá. $\lambda_1 > 0$ $\ell_1$

Aproximação

Digamos que selecionamos pesos que resolvem o problema de regressão da ponte. Isso significa que o gradiente de regressão da ponte é zero neste momento: $w^*$

\nabla_{w} L_{b} (w^{*}) = - 2 X^{T} (y - X w^{*}) + λ_{b} q | w^{*} |^{\circ (q - 1)} sgn (w^{*}) = \vec{0}

$\nabla_w L_b(w^*) = -2 X^T (y - Xw^*) + \lambda_b q |w^*|^{\circ (q-1)} \text{sgn}(w^*) = \vec{0}$

Assim sendo:

2 X^{T} (y - X w^{*}) = λ_{b} q | w^{*} |^{\circ (q - 1)} sgn (w^{*})

$2 X^T (y - Xw^*) = \lambda_b q |w^*|^{\circ (q-1)} \text{sgn}(w^*)$

Podemos substituí-lo no gradiente líquido elástico, para obter uma expressão para o gradiente líquido elástico em . Felizmente, isso não depende mais diretamente dos dados: $w^*$

\nabla_{w} L_{e} (w^{*}) = λ_{1} sgn (w^{*}) + 2 λ_{2} w^{*} - λ_{b} q | w^{*} |^{\circ (q - 1)} sgn (w^{*})

$\nabla_w L_e(w^*) = \lambda_1 \text{sgn}(w^*) + 2 \lambda_2 w^* -\lambda_b q |w^*|^{\circ (q-1)} \text{sgn}(w^*)$

Observando o gradiente líquido elástico em diz-nos: Dado que a regressão em ponte convergiu para pesos , como a rede elástica desejaria alterar esses pesos? $w^*$ $w^*$

Ele nos fornece a direção local e a magnitude da mudança desejada, porque o gradiente aponta na direção da subida mais íngreme e a função de perda diminui à medida que avançamos na direção oposta ao gradiente. O gradiente pode não apontar diretamente para a solução líquida elástica. Porém, como a função de perda líquida elástica é convexa, a direção / magnitude local fornece algumas informações sobre como a solução líquida elástica será diferente da solução de regressão em ponte.

Caso 1: verificação de sanidade

( ). A regressão de ponte nesse caso é equivalente a mínimos quadrados ordinários (OLS), porque a magnitude da penalidade é zero. A rede elástica é uma regressão de crista equivalente, porque somente a norma é penalizada. Os gráficos a seguir mostram diferentes soluções de regressão de ponte e como o gradiente líquido elástico se comporta para cada um. $\lambda_b = 0, \lambda_1 = 0, \lambda_2 = 1$ $\ell_2$

Gráfico à esquerda: gradiente líquido elástico x peso da regressão da ponte ao longo de cada dimensão

O eixo x representa um componente de um conjunto de pesos selecionado por regressão em ponte. O eixo y representa o componente correspondente do gradiente líquido elástico, avaliado em . Observe que os pesos são multidimensionais, mas estamos apenas olhando os pesos / gradiente ao longo de uma única dimensão. $w^*$ $w^*$

Gráfico à direita: alterações líquidas elásticas nos pesos da regressão em ponte (2d)

Cada ponto representa um conjunto de pesos 2d selecionados por regressão em ponte. Para cada escolha de , um vetor é plotado apontando na direção oposta ao gradiente líquido elástico, com magnitude proporcional à do gradiente. Ou seja, os vetores plotados mostram como a rede elástica deseja alterar a solução de regressão em ponte. $w^*$ $w^*$

Esses gráficos mostram que, comparada à regressão em ponte (OLS neste caso), a rede elástica (regressão em cordilheira neste caso) deseja encolher pesos para zero. A quantidade desejada de retração aumenta com a magnitude dos pesos. Se os pesos forem zero, as soluções são as mesmas. A interpretação é que queremos mover na direção oposta ao gradiente para reduzir a função de perda. Por exemplo, digamos que a regressão de ponte convergiu para um valor positivo para um dos pesos. O gradiente líquido elástico é positivo neste momento, portanto o líquido elástico deseja diminuir esse peso. Se estiver usando descida de gradiente, tomaremos medidas proporcionais em tamanho ao gradiente (é claro, não podemos tecnicamente usar descida de gradiente para resolver a rede elástica devido à não diferenciabilidade em zero,

Caso 2: ponte correspondente e rede elástica

( ). Eu escolhi os parâmetros de penalidade da ponte para corresponder ao exemplo da pergunta. Eu escolhi os parâmetros da rede elástica para dar a melhor penalidade de rede elástica correspondente. Aqui, os meios de melhor correspondência, dada uma distribuição específica de pesos, encontramos os parâmetros de penalidade líquida elástica que minimizam a diferença quadrática esperada entre as penalidades ponte e líquida: $q = 1.4, \lambda_b = 1, \lambda_1 = 0.629, \lambda_2 = 0.355$

min_{λ_{1}, λ_{2}} E [(λ_{1} ‖ w ‖_{1} + λ_{2} ‖ w ‖_{2}^{2} - λ_{b} ‖ w ‖_{q}^{q})^{2}]

$\min_{\lambda_1, \lambda_2} \enspace E \left [ ( \lambda_1 \|w\|_1 + \lambda_2 \|w\|_2^2 - \lambda_b \|w\|_q^q )^2 \right ]$

Aqui, considerei pesos com todas as entradas extraídas da distribuição uniforme em (ou seja, dentro de um hipercubo centrado na origem). Os parâmetros da rede elástica de melhor correspondência foram semelhantes para 2 a 1000 dimensões. Embora eles não pareçam ser sensíveis à dimensionalidade, os parâmetros de melhor correspondência dependem da escala da distribuição. $[-2, 2]$

Superfície de penalidade

Aqui está um gráfico de contorno da penalidade total imposta pela regressão em ponte ( ) e rede elástica de melhor correspondência ( ) como uma função dos pesos (para o caso 2d ): $q=1.4, \lambda_b=100$ $\lambda_1 = 0.629, \lambda_2 = 0.355$

Comportamento do gradiente

Podemos ver o seguinte:

Seja o peso de regressão da ponte escolhida ao longo da dimensão . $w^*_j$ $j$
Se , a rede elástica deseja reduzir o peso para zero. $|w^*_j|< 0.25$
Se , a regressão em ponte e as soluções de rede elástica são as mesmas. Mas, a rede elástica quer se afastar se o peso diferir um pouco. $|w^*_j| \approx 0.25$
Se , a rede elástica quer aumentar o peso. $0.25 < |w^*_j| < 1.31$
Se , as soluções de regressão em ponte e rede elástica são as mesmas. A rede elástica quer avançar nesse ponto a partir de pesos próximos. $|w^*_j| \approx 1.31$
Se , rede elástica quer diminuir o peso. $|w^*_j| > 1.31$

Os resultados são qualitativamente semelhantes se o valor de e / ou e encontrarmos o melhor correspondente . Os pontos em que as soluções de ponte e rede elástica coincidem mudam um pouco, mas o comportamento dos gradientes é similar. $q$ $\lambda_b$ $\lambda_1, \lambda_2$

Caso 3: ponte incompatível e rede elástica

$(q=1.8, \lambda_b=1, \lambda_1=0.765, \lambda_2 = 0.225)$ . Nesse regime, a regressão em ponte se comporta de maneira semelhante à regressão em cordilheira. Encontrei o melhor correspondência , mas os troquei para que a rede elástica se comporte mais como um laço ( penalidade maior que penalidade ). $\lambda_1, \lambda_2$ $\ell_1$ $\ell_2$

Em relação à ponte de regressão, a rede elástica quer encolher pesos pequenos em direção a zero e aumentar pesos maiores. Há um único conjunto de pesos em cada quadrante em que a regressão da ponte e as soluções de rede elástica coincidem, mas a rede elástica quer se afastar desse ponto se os pesos diferirem um pouco.

$(q=1.2, \lambda_b=1, \lambda_1=173, \lambda_2 = 0.816)$ . Nesse regime, a penalidade de ponte é mais semelhante a uma penalidade (embora a regressão de ponte possa não produzir soluções esparsas com , conforme mencionado no papel líquido elástico). Encontrei o melhor correspondência , mas os troquei para que a rede elástica se comporte mais como regressão de crista ( penalidade maior que penalidade ). $\ell_1$ $q > 1$ $\lambda_1, \lambda_2$ $\ell_2$ $\ell_1$

Em relação à ponte de regressão, a rede elástica quer aumentar pesos pequenos e diminuir pesos maiores. Há um ponto em cada quadrante em que a regressão da ponte e as soluções de rede elástica coincidem, e a rede elástica deseja avançar em direção a esses pesos a partir de pontos vizinhos.

user20160
fonte

(+1) Ótima resposta, obrigado pelo esforço! Você poderia abordar uma última coisa: "a rede elástica é sempre mais desejável?". Não precisa ser demorado;

Firebug

A regressão em ponte e a rede elástica são equivalentes à estimativa de MAP com diferentes tipos de anteriores nos pesos. Nesta perspectiva, parece que a melhor escolha seria a anterior que melhor corresponda ao processo de geração de dados e que nenhum dos métodos poderia ser melhor em todos os casos.

user20160

+6, resposta muito boa. Em relação ao seu comentário acima: qual anterior gera regressão em ponte? Eu sei que o prior gaussiano corresponde a ridge e Laplace antes do laço. Alguém pode de alguma forma combinar esses antecedentes para obter algo que corresponda à rede elástica?

Ameba diz Reinstate Monica

@amoeba A pergunta não foi direcionada a mim, eu sei, mas, como disse a GeneralAbrial na pergunta, provavelmente a ponte corresponde a um Subbotin anterior. A rede elástica, como esperado, está entre os priores gaussianos e laplacianos. Ver Li, Q. e Lin, N. (2010). A rede elástica bayesiana. Análise Bayesiana, 5 (1), 151-170. e Zou, H., & Hastie, T. (2005). Regularização e seleção de variáveis via rede elástica. Jornal da Sociedade Estatística Real: Série B (Metodologia Estatística), 67 (2), 301-320. para uma breve comparação entre a rede elástica e a regressão em ponte.