Meu professor provou que a segunda derivada da entropia cruzada é sempre positiva, de modo que a função de custo das redes neurais que usam entropia cruzada é convexa. Isso é verdade? Estou bastante confuso sobre isso, porque sempre aprendi que a função de custo da RNA é não convexa. alguém pode confirmar isso? Muito obrigado! http://z0rch.com/2014/06/05/cross-entropy-cost-function
neural-networks
convex
xuancanh
fonte
fonte
Respostas:
A entropia cruzada de uma família exponencial é sempre convexa. Portanto, para uma rede neural multicamada com entradas , pesos saída , e função de perdaw y Lx W y eu
é convexo. Contudo,
não será convexo para os parâmetros da camada intermediária pelas razões descritas por iamonaboat.
fonte
O que @ngiann disse, e informalmente, se você permuta os neurônios na camada oculta e faz a mesma permutação nos pesos das camadas adjacentes, a perda não muda.
Portanto, se houver um mínimo global diferente de zero em função dos pesos, ele não poderá ser único, pois a permutação de pesos fornece outro mínimo global. Portanto, a função não é convexa.
A matriz de todas as segundas derivadas parciais (o Hessiano) não é nem semidefinido positivo nem semidefinido negativo. Como a segunda derivada é uma matriz, é possível que não seja uma ou a outra.
fonte
Você está certo ao suspeitar que o problema de otimização de RNA da entropia cruzada não será convexo. Nota: estamos falando de uma rede neural com função de ativação não linear na camada oculta. Se você não usar uma função de ativação não linear, sua RNA estará implementando uma função linear e o problema se tornará convexo.
Portanto, a razão pela qual a otimização da entropia cruzada de uma RNA é não convexa é por causa da parametrização subjacente da RNA. Se você usar uma rede neural linear, poderá torná-la convexa (essencialmente parecerá regressão logística, que é um problema convexo).
fonte