Derivação da função de custo de regressão linear regularizada por curso Coursera Machine Learning

12

Participei do curso "Machine Learning" de Andrew Ng via Coursera há alguns meses, não prestando atenção à maioria das matemáticas / derivações e, em vez disso, focando na implementação e na praticidade. Desde então, voltei a estudar algumas das teorias subjacentes e revisitei algumas das palestras do Prof. Ng. Eu estava lendo sua palestra sobre "Regressão Linear Regularizada" e vi que ele tinha a seguinte função de custo:

J(θ)=1 12m[Eu=1 1m(hθ(x(Eu))-y(Eu))2+λj=1 1nθj2]

Em seguida, ele fornece o seguinte gradiente para essa função de custo:

θjJ(θ)=1 1m[Eu=1 1m(hθ(x(Eu))-y(Eu))xj(Eu)-λθj]

Estou um pouco confuso sobre como ele passa de um para o outro. Quando tentei fazer minha própria derivação, obtive o seguinte resultado:

θjJ(θ)=1 1m[Eu=1 1m(hθ(x(Eu))+y(Eu))xj(Eu)+λθj]

A diferença é o sinal de "mais" entre a função de custo original e o parâmetro de regularização na fórmula do Prof. Ng, transformando-se em um sinal de "menos" em sua função de gradiente, enquanto isso não está acontecendo no meu resultado.

Intuitivamente, entendo por que é negativo: estamos reduzindo o parâmetro theta pela figura do gradiente e queremos que o parâmetro de regularização reduza a quantidade que estamos alterando no parâmetro para evitar o ajuste excessivo. Estou apenas um pouco preso ao cálculo que apóia essa intuição.

Para sua informação, você pode encontrar o deck aqui , nos slides 15 e 16.

Wellington
fonte
11
No seu resultado, você tem um " + " precedendo y ^ (i) - isso é um erro de digitação?
Steve S

Respostas:

12

J(θ)=1 12m[Eu=1 1m(hθ(x(Eu))-y(Eu))2+λj=1 1nθj2]

Agora

θj(hθ(x(Eu))-y(Eu))2=2[(hθ(x(Eu))-y(Eu))θj{hθ(x(Eu))}]

θj(hθ(x(Eu))=[x(Eu)]j

θjλj=1 1nθ2=2λθj

Então, para o caso linear

θjJ(θ)=1 1m[Eu=1 1m(hθ(x(Eu))-y(Eu))xj(Eu)+λθj]

Parece que você e Andrew podem ter erros de digitação. Bem, pelo menos dois de nós três parecem.

Glen_b -Reinstate Monica
fonte
está confirmado, apenas um erro de digitação na nota de Andrew, deve ser um sinal de +. E o Prof explica corretamente tudo corretamente, incluindo a intuição θ (1-α (λ / m)), significando toda vez que este encolhe θ, menos a parte usual antes da introdução da regularização.
precisa saber é o seguinte
4

Na verdade, se você verificar as anotações da aula logo após o vídeo, ela mostrará a fórmula corretamente. Os slides alinhados aqui mostram o slide exato do vídeo.

insira a descrição da imagem aqui

Piyush
fonte
coursera.org/learn/machine-learning/supplement/pKAsc/… aqui está o link para as notas logo após o vídeo mostrando a fórmula correta.
precisa saber é o seguinte
1

Na verdade, acho que é apenas um erro de digitação.

-α-λθ-α

Faz sentido?

Steve S
fonte