A normalização de L2 da regressão de crista pune a interceptação? Se não, como resolver sua derivada?

Eu sou novo no ML. Fui informado de que a normalização L2 da regressão de crista não pune a interceptação . Como na função de custo: O termo de normalização de L2 apenas soma de a , não de a . Eu também li que: $\theta_{0}$

\nabla_{θ} J (θ) = \frac{1}{2} \sum_{i = 1}^{m} (h_{\vec{θ}} (x^{(i)}) - y^{(i)})^{2} + λ \sum_{j = 1}^{n} θ_{j}^{2}

$\nabla_{\theta}J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(h_{\vec \theta}(x^{(i)})-y^{(i)})^2+\lambda\sum_{j=1}^{n}{\theta_{j}^{2}}$

λ \sum_{j = 1}^{n} θ_{j}^{2}

$\lambda\sum_{j=1}^{n}{\theta_{j}^{2}}$

j = 1

$j=1$

n

$n$

j = 0

$j=0$

n

$n$

na maioria dos casos (todos os casos?), é melhor você não regularizar , pois é improvável que você reduza a e diminua o espaço das funções representáveis $\theta_{0}$

que vem da última resposta do usuário48956 de Por que um modelo de regressão linear com interceptação zero prevê melhor do que um modelo com interceptação?

Estou confuso sobre como resolver a derivada da função de custo, pois: onde , e .

\nabla_{θ} J (θ) = \frac{1}{2} （ X θ - Y ）^{T} （ X θ - Y ） + λ (θ^{^{'}})^{T} θ^{^{'}},

$\nabla_{\theta}J(\theta)=\frac{1}{2}（X\theta-Y）^{T}（X\theta-Y）+\lambda(\theta^{'})^{T}\theta^{'},$

θ^{^{'}} = [\begin{matrix} θ_{1} \\ θ_{2} \\ . . . \\ θ_{n} \end{matrix}]

$\theta^{'}=\left[ \begin{matrix} \theta_{1} \\ \theta_{2} \\ ...\\ \theta_{n} \end{matrix} \right]$

θ = [\begin{matrix} θ_{0} \\ θ_{1} \\ . . . \\ θ_{n} \end{matrix}]

$\theta=\left[ \begin{matrix} \theta_{0} \\ \theta_{1} \\ ...\\ \theta_{n} \end{matrix} \right]$

X = [\begin{matrix} 1 & X_{1}^{(1)} & X_{2}^{(1)} & . . . & X_{n}^{(1)} \\ 1 & X_{1}^{(2)} & X_{2}^{(2)} & . . . & X_{n}^{(2)} \\ . . . \\ 1 & X_{1}^{(m)} & X_{2}^{(m)} & . . . & X_{n}^{(m)} \end{matrix}]

$X=\left[ \begin{matrix} 1 & X_{1}^{(1)} & X_{2}^{(1)} & ...& X_{n}^{(1)} \\ 1 & X_{1}^{(2)} & X_{2}^{(2)} & ...& X_{n}^{(2)} \\ ...\\ 1 & X_{1}^{(m)} & X_{2}^{(m)} & ...& X_{n}^{(m)} \end{matrix} \right]$

$\theta^{'}$ e são diferentes. Portanto, eles não podem ser misturados do meu ponto de vista. E a derivada é sobre， que contém . Após pesquisar no Google e visualizar as perguntas neste fórum, ainda não há como obter a solução: Alguém pode me dar uma pista? Agradeço antecipadamente por sua ajuda! $\theta$ $\theta$ $\theta^{'}$

θ = (X^{T} X + λ * I)^{- 1} X^{T} Y

$\theta=(X^TX+\lambda*I)^{-1}X^TY$

No entanto, acho que existem duas correções rápidas para esse problema:

Primeiro de tudo, nós não adicionar a coluna toda 1 a . Ou seja, . Ou seja, não incluímos a interceptação no modelo: Acredito que esse método seja adotado no livro clássico Machine Learning in Action, de Peter Harrington, que estou lendo atualmente. Na implementação da regressão de crista (P166 e P177, se você também possui o livro), todo o passado para a regressão de crista não possui a coluna todos 1. $X$ $X=\left[ \begin{matrix} X_{1}^{(1)} & X_{2}^{(1)} & ...& X_{n}^{(1)} \\ X_{1}^{(2)} & X_{2}^{(2)} & ...& X_{n}^{(2)} \\ ...\\ X_{1}^{(m)} & X_{2}^{(m)} & ...& X_{n}^{(m)} \end{matrix} \right]$

y = θ_{1} X_{1} + θ_{2} X_{2} + . . . + θ_{n} X_{n} .

$y=\theta_{1}X_{1}+\theta_{2}X_{2}+...+\theta_{n}X_{n}.$

X

$X$

Em segundo lugar, a interceptação também está sendo punida na realidade.

A regressão logística do scikit regulariza a interceptação por padrão.

que mais uma vez vem da última resposta do usuário48956 de Por que um modelo de regressão linear de interceptação zero prevê melhor do que um modelo com interceptação?

Ambas as duas correções rápidas levam à solução

θ = (X^{T} X + λ * I)^{- 1} X^{T} Y .

$\theta=(X^TX+\lambda*I)^{-1}X^TY.$

Então, a derivada da normalização L2 da regressão de crista pode realmente ser resolvida ou apenas resolvida por soluções rápidas?

machine-learning ridge-regression Naomi
fonte

Consulte também stats.stackexchange.com/questions/86991 . A resposta para o seu Q é que tudo pode ser resolvido: simplesmente decomponha o primeiro termo em theta_0 e theta_prime. Você pode resolver imediatamente o theta_0 ideal: é a média geral. Levando à sua "correção rápida nº 1" como a solução adequada para theta_prime nos dados subtraídos à média.

ameba

A segunda solução é considerada universalmente incorreta. A penalização da interceptação é um dos poucos erros de design no sklearn.

Matthew Drury

@ MatthewDrury Acho que mencionei um truque para "consertar" isso e fiquei triste. Mas quero dizer ao OP que o hack é uma grande interceptação, como 1e9. Então a regularização tem pouco efeito nela.

Haitao Du

Sim, você se lembra corretamente, toda vez que faço isso, morro um pouco por dentro.

Matthew Drury

@amoeba Muito obrigado! Eu resolvo a solução em minha resposta sob sua orientação. Você pode me ajudar a verificar? Além disso, descubro que o Machine Learning em Ação subtrai de e não adiciona a coluna 1 a que são os dois caminhos a seguir. No entanto, ao fazer a padronização de recursos, ele divide por variação e não por desvio padrão! Fiz outra pergunta para isso: não por desvio padrão Você pode me ajudar novamente nessa questão? Obrigado!

Y

$Y$

X

$X$

X - μ

$X-\mu$

Naomi

Os elementos de aprendizagem estatística de Hastie et al. ressalta no P63 que:

a interceptação foi deixada de fora do termo da penalidade $\theta_{0}$

Além disso, diz:

As soluções de crista não são equivalentes na escala das entradas e, portanto, normalmente as padronizamos antes de resolver (3.41) (3.41 é a função de custo). Pode ser mostrado (Exercício 3.5) que a solução para (3.41) pode ser separada em duas partes, após reparametrização usando entradas centralizadas: cada é substituído por Nós estimamos por Os coeficientes restantes são estimados por uma regressão de crista sem interceptar, usando o centralizado . A partir de agora assumimos que essa centralização foi realizada, de modo que a matriz de entrada tenha $X_{j}^{(i)}$ $X_{j}^{(i)}-\overline{x_{j}}.$ $\theta_{0}$ $\overline{y}=\frac{1}{m}\sum_{i=1}^{m}y^{(i)}$ $X_{j}^{(i)}$ $X$ $n$ (em vez de ) colunas. $n + 1$

Embora eu me pergunte por que os Elementos do aprendizado estatístico sugerem primeiro a padronização de recursos e, em seguida, apenas a centralização de recursos é realizada. Talvez concorde com o Exercício 3.5, que usa apenas a centralização de recursos.

De qualquer forma, acredito que é correto aplicar a padronização do z-score aos recursos. Então, agora tento resolver a derivada da função de custo da regressão de cume, seguindo a sugestão da ameba do comentador acima. Muito obrigado a ele ou ela!

Primeiro, a função de custo: que é a média do atributo e é o desvio padrão de . Para torná-lo mais curto: Agora, primeiro calculamos o valor de

\nabla_{θ} J (θ) = \frac{1}{2} \sum_{i = 1}^{m} (y_{i} - θ_{0} - \frac{X_{1}^{(i)} - \bar{X_{1}}}{σ_{1}} θ_{1} - \frac{X_{2}^{(i)} - \bar{X_{2}}}{σ_{2}} θ_{2} - . . . - \frac{X_{n}^{(i)} - \bar{X_{n}}}{σ_{n}} θ_{n})^{2} + λ \sum_{j = 1}^{n} θ_{j}^{2},

$\nabla_{ \theta}J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(y_{i}-\theta_{0}-\frac{X_{1}^{(i)}-\overline{X_1}}{\sigma_1}\theta_1-\frac{X_{2}^{(i)}-\overline{X_2}}{\sigma_2}\theta_2-...-\frac{X_{n}^{(i)}-\overline{X_n}}{\sigma_n}\theta_n)^2+\lambda\sum_{j=1}^{n}{\theta_{j}^{2}},$

\bar{X_{j}}

$\overline{X_j}$

X_{j}

$X_{j}$

σ_{j}

$\sigma_j$

X_{j}

$X_{j}$

\nabla_{θ} J (θ) = \frac{1}{2} \sum_{i = 1}^{m} (y_{i} - θ_{0} - \sum_{j = 1}^{n} \frac{X_{j}^{(i)} - \bar{X_{j}}}{σ_{j}} θ_{j})^{2} + λ \sum_{j = 1}^{n} θ_{j}^{2}

$\nabla_{ \theta}J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(y_{i}-\theta_{0}-\sum_{j=1}^{n}\frac{X_j^{(i)}-\overline{X_j}}{\sigma_{j}}\theta_j)^2+\lambda\sum_{j=1}^{n}{\theta_{j}^{2}}$

θ_{0}

$\theta_0$ na expressão acima, definindo a derivada em relação a igual a zero. Como não possui , obtemos: Ou seja: Como (porque é o média do atributo ), agora temos

θ_{0}

$\theta_0$

λ \sum_{j = 1}^{n} θ_{j}^{2}

$\lambda\sum_{j=1}^{n}{\theta_{j}^{2}}$

θ_{0}

$\theta_{0}$

\nabla_{θ_{0}} J (θ) = - \sum_{i = 1}^{m} (y_{i} - θ_{0} - \sum_{j = 1}^{n} \frac{X_{j}^{(i)} - \bar{X_{j}}}{σ_{j}} θ_{j}) = 0

$\nabla_{ \theta_0}J(\theta)=-\sum_{i=1}^{m}(y_{i}-\theta_{0}-\sum_{j=1}^{n}\frac{X_j^{(i)}-\overline{X_j}}{\sigma_{j}}\theta_j)=0$

\sum_{i = 1}^{m} (y_{i} - θ_{0}) - \sum_{i = 1}^{m} \sum_{j = 1}^{n} \frac{X_{j}^{(i)} - \bar{X_{j}}}{σ_{j}} θ_{j} = 0

$\sum_{i=1}^{m}(y_{i}-\theta_{0})-\sum_{i=1}^{m}\sum_{j=1}^{n}\frac{X_j^{(i)}-\overline{X_j}}{\sigma_{j}}\theta_j=0$

\sum_{i = 1}^{m} \sum_{j = 1}^{n} \frac{X_{j}^{(i)} - \bar{X_{j}}}{σ_{j}} θ_{j} = 0

$\sum_{i=1}^{m}\sum_{j=1}^{n}\frac{X_j^{(i)}-\overline{X_j}}{\sigma_{j}}\theta_j=0$

\bar{X_{j}}

$\overline{X_j}$

X_{j}

$X_{j}$

\sum_{i = 1}^{m} (y_{i} - θ_{0}) = 0,

$\sum_{i=1}^{m}(y_{i}-\theta_{0})=0,$ obviamente:

θ_{0} = \bar{y} = \frac{1}{m} \sum_{i = 1}^{m} y^{(i)}

$\theta_0=\overline{y}=\frac{1}{m}\sum_{i=1}^{m}y^{(i)}$

Portanto, a interceptação da regressão de crista padronizada de recurso é sempre . Portanto, se primeiro centralizarmos subtraindo sua média (get para o exemplo de dados ), não incluiremos todas as 1 colunas em e, em seguida, apresentaremos padronização em (get para do exemplo de dados ) , a função de custo será simplesmente Isso é $\overline{y}$ $Y$ $(y_i)^{'}$ $i$ $X$ $X$ $(X_j^{(i)})^{'}$ $X_{j}$ $i$

\nabla_{θ} J (θ) = \frac{1}{2} \sum_{i = 1}^{m} ((y_{i})^{^{'}} - \sum_{j = 1}^{n} (X_{j}^{(i)})^{^{'}} θ_{j})^{2} + λ \sum_{j = 1}^{n} θ_{j}^{2}

$\nabla_{ \theta}J(\theta)=\frac{1}{2}\sum_{i=1}^{m}((y_{i})^{'}-\sum_{j=1}^{n}(X_j^{(i)})^{'}\theta_j)^2+\lambda\sum_{j=1}^{n}{\theta_{j}^{2}}$

\nabla_{θ} J (θ) = \frac{1}{2} （ X^{^{'}} θ - Y^{^{'}} ）^{T} （ X^{^{'}} θ - Y^{^{'}} ） + λ (θ)^{T} θ,

$\nabla_{\theta}J(\theta)=\frac{1}{2}（X^{'}\theta-Y^{'}）^{T}（X^{'}\theta-Y^{'}）+\lambda(\theta)^{T}\theta,$ onde , não tem toda uma coluna e padronizada de , é centrada em relação a . Agora (sem ) pode ser resolvido com: Para recursos padronizados, o modelo linear será em que

θ = [\begin{matrix} θ_{1} \\ θ_{2} \\ . . . \\ θ_{n} \end{matrix}]

$\theta=\left[ \begin{matrix} \theta_1 \\ \theta_2 \\ ...\\ \theta_n \end{matrix} \right]$

X^{^{'}}

$X^{'}$

X

$X$

Y^{^{'}}

$Y^{'}$

Y

$Y$

θ

$\theta$

θ_{0}

$\theta_0$

θ = ((X^{^{'}})^{T} X^{^{'}} + λ * I)^{- 1} (X^{^{'}})^{T} Y^{^{'}}

$\theta=((X^{'})^TX^{'}+\lambda*I)^{-1}(X^{'})^TY^{'}$

y = \bar{y} + θ_{1} X_{1}^{^{'}} + θ_{2} X_{2}^{^{'}} + . . . + θ_{n} X_{n}^{^{'}} - - - (1),

$y=\overline{y}+\theta{_1}X_1^{'}+\theta{_2}X_2^{'}+...+\theta{_n}X_n^{'}---(1),$

X_{i}^{^{'}} = \frac{X_{i} - \bar{X_{i}}}{σ_{i}} - - - (2)

$X_i^{'}=\frac{X_{i}-\overline{X_i}}{\sigma_i}---(2)$ Se usarmos (2) em (1) como sugerido na resposta de Plasty Grove . Portanto, para dados de entrada de origem, o modelo linear será Isso é É por isso que, depois de resolvermos os coeficientes de recursos padronizados, retornar dados de entrada de coeficientes de origem (não padronizados recursos), devemos retornar

y = \bar{y} + \frac{X_{1} - \bar{X_{1}}}{σ_{1}} θ_{1} + \frac{X_{2} - \bar{X_{2}}}{σ_{2}} θ_{2} + . . . + \frac{X_{n} - \bar{X_{n}}}{σ_{n}} θ_{n}

$y=\overline{y}+\frac{X_{1}-\overline{X_1}}{\sigma_1}\theta_1+\frac{X_{2}-\overline{X_2}}{\sigma_2}\theta_2+...+\frac{X_{n}-\overline{X_n}}{\sigma_n}\theta_n$

y = \frac{θ_{1}}{σ_{1}} X_{1} + \frac{θ_{2}}{σ_{2}} X_{2} + . . . + \frac{θ_{n}}{σ_{n}} X_{n} + \bar{y} - \frac{\bar{X_{1}}}{σ_{1}} θ_{1} - \frac{\bar{X_{2}}}{σ_{2}} θ_{2} - . . . - \frac{\bar{X_{n}}}{σ_{n}} θ_{n}

$y=\frac{\theta_1}{\sigma_1}X_1+\frac{\theta_2}{\sigma_2}X_2+...+\frac{\theta_n}{\sigma_n}X_n+\overline{y}-\frac{\overline{X_1}}{\sigma_1}\theta_1-\frac{\overline{X_2}}{\sigma_2}\theta_2-...-\frac{\overline{X_n}}{\sigma_n}\theta_n$

θ_{i} / σ_{i}

$\theta_i/\sigma_i$

Naomi
fonte

Belo exemplo detalhado. Alguns comentários: você comenta o efeito de centralizar , mas para omitir um termo de interceptação e obter estimativas corretas, é preciso centralizar todos os recursos também. No entanto, eu concordo que este exemplo concorda com a lógica de não penalizar o termo de interceptação (para obter inferência consistente). Segundo, a intuição deve servir para algo aqui. Todos nós aceitamos que prever por sua média é semelhante a um modelo de parâmetro 0, de modo a obter o efeito aditivo de no modelo, não devemos penalizar o termo que simplesmente pega o efeito médio-Y na presença de .

Y

$Y$

X

$X$

Y

$Y$

X

$X$

X

$X$

21418 AdamO em

A normalização de L2 da regressão de crista pune a interceptação? Se não, como resolver sua derivada?

Respostas: