Participei do curso "Machine Learning" de Andrew Ng via Coursera há alguns meses, não prestando atenção à maioria das matemáticas / derivações e, em vez disso, focando na implementação e na praticidade. Desde então, voltei a estudar algumas das teorias subjacentes e revisitei algumas das palestras do Prof. Ng. Eu estava lendo sua palestra sobre "Regressão Linear Regularizada" e vi que ele tinha a seguinte função de custo:
Em seguida, ele fornece o seguinte gradiente para essa função de custo:
Estou um pouco confuso sobre como ele passa de um para o outro. Quando tentei fazer minha própria derivação, obtive o seguinte resultado:
A diferença é o sinal de "mais" entre a função de custo original e o parâmetro de regularização na fórmula do Prof. Ng, transformando-se em um sinal de "menos" em sua função de gradiente, enquanto isso não está acontecendo no meu resultado.
Intuitivamente, entendo por que é negativo: estamos reduzindo o parâmetro theta pela figura do gradiente e queremos que o parâmetro de regularização reduza a quantidade que estamos alterando no parâmetro para evitar o ajuste excessivo. Estou apenas um pouco preso ao cálculo que apóia essa intuição.
Para sua informação, você pode encontrar o deck aqui , nos slides 15 e 16.
fonte
Respostas:
Agora
Então, para o caso linear
Parece que você e Andrew podem ter erros de digitação. Bem, pelo menos dois de nós três parecem.
fonte
Na verdade, se você verificar as anotações da aula logo após o vídeo, ela mostrará a fórmula corretamente. Os slides alinhados aqui mostram o slide exato do vídeo.
fonte
Na verdade, acho que é apenas um erro de digitação.
Faz sentido?
fonte