Estou tentando entender a história da descida de gradiente e descida de gradiente estocástico . A descida em gradiente foi inventada em Cauchy em 1847. O método geral para a resolução de sistemas de equações simultâneas . pp. 536-538 Para obter mais informações, consulte aqui .
Desde então, os métodos de descida gradiente continuaram se desenvolvendo e eu não estou familiarizado com a história deles. Em particular, estou interessado na invenção da descida do gradiente estocástico.
Uma referência que pode ser usada em um artigo acadêmico em mais do que bem-vinda.
Respostas:
A descida estocástica do gradiente é precedida pela aproximação estocástica, descrita pela primeira vez por Robbins e Monro em seu artigo, Um método de aproximação estocástica . Kiefer e Wolfowitz publicaram posteriormente seu artigo, Estimativa Estocástica do Máximo de uma Função de Regressãoque é mais reconhecível para pessoas familiarizadas com a variante ML da Aproximação estocástica (ou seja, descida estocástica do gradiente), como apontado por Mark Stone nos comentários. Os anos 60 viram muitas pesquisas nesse sentido - Dvoretzky, Powell, Blum, todos os resultados publicados que hoje tomamos como garantidos. É um salto relativamente pequeno para passar do método de Robbins e Monro para o método de Kiefer Wolfowitz, e apenas uma reformulação do problema para chegar à descida estocástica do gradiente (para problemas de regressão). Os artigos acima são amplamente citados como sendo os antecedentes da descida estocástica do gradiente, como mencionado neste artigo de revisão de Nocedal, Bottou e Curtis , que fornece uma breve perspectiva histórica do ponto de vista do aprendizado de máquina.
Acredito que Kushner e Yin em seu livro Aproximação Estocástica e Algoritmos e Aplicações Recursivos sugerem que a noção havia sido usada na teoria de controle desde os anos 40, mas não me lembro se eles tinham uma citação para isso ou se foi. anedótico, nem tenho acesso ao livro deles para confirmar isso.
fonte
Vejo
Não tenho certeza se o SGD foi inventado antes disso na literatura de otimização - provavelmente foi - mas aqui acredito que ele descreve uma aplicação do SGD para treinar um perceptron.
Ele chama esses "dois tipos de reforço".
Ele também faz referência a um livro com mais informações sobre esses "sistemas bivalentes".
fonte