Eu sou novo no ML. Fui informado de que a normalização L2 da regressão de crista não pune a interceptação . Como na função de custo: O termo de normalização de L2 apenas soma de a , não de a . Eu também li que: ∇ θ J ( θ ) = 1 λ∑ n j = 1 θ 2 j j=1nj=0n
na maioria dos casos (todos os casos?), é melhor você não regularizar , pois é improvável que você reduza a e diminua o espaço das funções representáveis
que vem da última resposta do usuário48956 de Por que um modelo de regressão linear com interceptação zero prevê melhor do que um modelo com interceptação?
Estou confuso sobre como resolver a derivada da função de custo, pois: onde , e .Θ
Θθθ e são diferentes. Portanto, eles não podem ser misturados do meu ponto de vista. E a derivada é sobre, que contém . Após pesquisar no Google e visualizar as perguntas neste fórum, ainda não há como obter a solução: Alguém pode me dar uma pista? Agradeço antecipadamente por sua ajuda! Θ=(XtX+λ*I) - 1 XTY
No entanto, acho que existem duas correções rápidas para esse problema:
Primeiro de tudo, nós não adicionar a coluna toda 1 a . Ou seja, . Ou seja, não incluímos a interceptação no modelo: Acredito que esse método seja adotado no livro clássico Machine Learning in Action, de Peter Harrington, que estou lendo atualmente. Na implementação da regressão de crista (P166 e P177, se você também possui o livro), todo o passado para a regressão de crista não possui a coluna todos 1.X = [ y= θ 1 X 1 + θ 2 X 2 +. . . + θ n X n . X
Em segundo lugar, a interceptação também está sendo punida na realidade.
A regressão logística do scikit regulariza a interceptação por padrão.
que mais uma vez vem da última resposta do usuário48956 de Por que um modelo de regressão linear de interceptação zero prevê melhor do que um modelo com interceptação?
Ambas as duas correções rápidas levam à solução
Então, a derivada da normalização L2 da regressão de crista pode realmente ser resolvida ou apenas resolvida por soluções rápidas?
Respostas:
Os elementos de aprendizagem estatística de Hastie et al. ressalta no P63 que:
Além disso, diz:
Embora eu me pergunte por que os Elementos do aprendizado estatístico sugerem primeiro a padronização de recursos e, em seguida, apenas a centralização de recursos é realizada. Talvez concorde com o Exercício 3.5, que usa apenas a centralização de recursos.
De qualquer forma, acredito que é correto aplicar a padronização do z-score aos recursos. Então, agora tento resolver a derivada da função de custo da regressão de cume, seguindo a sugestão da ameba do comentador acima. Muito obrigado a ele ou ela!
Primeiro, a função de custo: que é a média do atributo e é o desvio padrão de . Para torná-lo mais curto: Agora, primeiro calculamos o valor de
Portanto, a interceptação da regressão de crista padronizada de recurso é sempre . Portanto, se primeiro centralizarmos subtraindo sua média (get para o exemplo de dados ), não incluiremos todas as 1 colunas em e, em seguida, apresentaremos padronização em (get para do exemplo de dados ) , a função de custo será simplesmente Isso éy¯¯¯ Y (yi)′ i X X (X(i)j)′ Xj i
fonte