Estou tentando entender a otimização da descida do gradiente nos algoritmos de ML (aprendizado de máquina). Entendo que existe uma função de custo - em que o objetivo é minimizar o erro . Em um cenário em que os pesos estão sendo otimizados para fornecer o erro mínimo e derivadas parciais estão sendo usadas, ele altera e em cada etapa ou é uma combinação (por exemplo, em poucas iterações, apenas é alterado e quando não está mais reduzindo o erro, a derivada começa com )? O aplicativo pode ser um modelo de regressão linear, um modelo de regressão logística ou algoritmos de aumento.
w1
, diminuir comw2
base na direção da derivada parcial para atingir mínimos locais e apenas para confirmar que o algoritmo não fornecerá sempre os mínimos globais sempre?w1
e /w2
ou que é feito pela taxa de aprendizado / retração, enquanto a derivada parcial fornece apenas a direção da descida?