O erro do quadrado médio é sempre convexo no contexto das redes neurais?

9

Vários recursos que mencionei mencionam que o MSE é ótimo porque é convexo. Mas não entendo como, especialmente no contexto de redes neurais.

Digamos que temos o seguinte:

  • X : conjunto de dados de treinamento
  • Y : metas
  • Θ : o conjunto de parâmetros do modelofΘ (um modelo de rede neural com não linearidades)

Então:

MSE(Θ)=(fΘ(X)Y)2

Por que essa função de perda sempre seria convexa? Isso depende de fΘ(X) ?

user74211
fonte

Respostas:

1

Resposta curta: MSE é convexo em sua entrada e parâmetros por si só. Mas em uma rede neural arbitrária nem sempre é convexa devido à presença de não linearidades na forma de funções de ativação. A fonte da minha resposta está aqui .

varsh
fonte
1

Convexidade

f(x)xΧx1Χx2Χ0λ1

f(λx1+(1λ)x2)λf(x1)+(1λ)f(x2).

Pode-se provar que esse convexo possui um mínimo global. Um mínimo global exclusivo elimina traps criados por mínimos locais que podem ocorrer em algoritmos que tentam obter convergência em um mínimo global, como a minimização de uma função de erro.f(x)

Embora uma função de erro possa ser 100% confiável em todos os contextos contínuos, lineares e em muitos contextos não lineares, isso não significa a convergência em um mínimo global para todos os possíveis contextos não lineares.

Erro quadrado médio

Dada uma função descreve o comportamento ideal do sistema e um modelo do sistema (onde é o vetor de parâmetro, matriz, cubo ou hipercubo e ), criado racionalmente ou por convergência (como no treinamento da rede neural), a função erro quadrático médio (MSE) pode ser representada da seguinte maneira.s(x)a(x,p)p1nN

e(β):=N1n[a(xn)s(xn)]2

O material que você está lendo provavelmente não é alegando que ou são convexas em relação à , mas que é convexo com respeito a e não importa o que sejam. Esta afirmação posterior pode ser comprovada para qualquer a e contínuos . a(x,p)s(x)xe(β)a(x,p)s(x)a(x,p)s(x)

Confundindo o algoritmo de convergência

Se a pergunta é se um e um método específicos para atingir um que se aproxima de a dentro de uma margem de convergência MSE razoável podem ser confundidos, a resposta é "Sim". É por isso que o MSE não é o único modelo de erro.a(x,p)s(x)a(x,p)

Sumário

A melhor maneira de resumir é que deve ser definido ou escolhido a partir de um conjunto de modelos de erro convexo de ações com base no conhecimento a seguir.e(β)

  • Propriedades conhecidas do sistemas(x)
  • A definição do modelo de aproximaçãoa(x,p)
  • Tensor usado para gerar o próximo estado na sequência convergente

O conjunto de modelos de erro convexo de ações certamente inclui o modelo MSE devido à sua simplicidade e economia computacional.

FauChristian
fonte
Portanto, a resposta curta é MSE wrt Theta é sempre convexo. Embora o Feedforard (X, Theta) possa não ser convexo?
user74211
Bem, @ user74211, esse comentário não está realmente respondendo à pergunta. A pergunta especificamente feita COMO o erro quadrado médio sempre pode ser convexa se a função à qual se aplica não for. Seu comentário é um subconjunto das declarações da pergunta, sem a explicação solicitada.
FauChristian