Existe uma discussão semelhante aqui (a função de custo da rede neural não é convexa? ), Mas não consegui entender os pontos nas respostas e minha razão para perguntar novamente, esperando que isso esclareça alguns problemas:
Se estou usando soma de função de custo diferença de quadrados, sou em última análise, optimizando algo da forma em que y é o valor real da etiqueta durante a fase de formação e y é a etiqueta prevista valor. Como isso tem uma forma quadrada, essa deve ser uma função de custo convexa. Então, o que poderia torná-lo não convexo em um NN?
Respostas:
é, de facto convexa em y i . Mas se y i = f ( x i ; θ∑Eu( yEu- y^Eu)2 y^Eu pode não ser convexo em θ , que é a situação com a maioria dos modelos não lineares, e nós realmente se preocupam com convexidade em θ porque é isso que nós estamos otimizando a função de custo sobre.y^Eu= f( xEu; θ ) θ θ
Por exemplo, vamos considerar uma rede com 1 camada oculta de unidades e uma camada de saída linear: nossa função de custo é g ( α , W ) = ∑ i ( y i - α i σ ( W x i ) ) 2 onde x i ∈ R p e W ∈ R N ×N
Aqui está o código R que eu usei para fazer essa figura (embora alguns dos parâmetros estejam com valores ligeiramente diferentes agora do que quando eu fiz isso para que eles não sejam idênticos):
fonte