O erro do quadrado médio é sempre convexo no contexto das redes neurais?

Vários recursos que mencionei mencionam que o MSE é ótimo porque é convexo. Mas não entendo como, especialmente no contexto de redes neurais. Digamos que temos o seguinte: XXX : conjunto de dados de treinamento YYY : metas ΘΘ\Theta : o conjunto de parâmetros do modelofΘfΘf_\Theta (um modelo de...