Perguntas com a marcação «gradient-descent»

23
Coordenada vs. descida de gradiente

Eu queria saber quais são os diferentes casos de uso para os dois algoritmos, descida de coordenadas e descida de gradiente . Eu sei que a descida de coordenadas tem problemas com funções não suaves, mas é usada em algoritmos populares como SVM e LASSO. Acho que a descida em gradiente é usada...

21
Da regra de Perceptron à Descida de Gradiente: Como os Perceptrons com uma função de ativação sigmóide são diferentes da Regressão Logística?

Essencialmente, minha pergunta é que, nos Perceptrons multicamadas, os perceptrons são usados ​​com uma função de ativação sigmóide. De modo que na regra de actualização y é calculado comoy^y^\hat{y} y^=11+exp(−wTxi)y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)} Como esse...

14
Como ele pode ser preso em um ponto de sela?

Atualmente, estou um pouco confuso com a forma como a descida do gradiente de mini-lote pode ser presa em um ponto de sela. A solução pode ser muito trivial que eu não entendo. Você começa uma amostra nova todas as épocas, e calcula um novo erro com base em um novo lote, para a função de custo é...