Ouvi Andrew Ng (em um vídeo que infelizmente não consigo mais encontrar) falar sobre como a compreensão dos mínimos locais em problemas de aprendizagem profunda mudou no sentido de que agora eles são considerados menos problemáticos porque em espaços de alta dimensão (encontrados em aprendizado profundo) é mais provável que os pontos críticos sejam pontos de sela ou platôs, em vez de mínimos locais.
Eu já vi artigos (por exemplo, este ) que discutem suposições sob as quais "todo mínimo local é um mínimo global". Essas suposições são todas bastante técnicas, mas pelo que entendi elas tendem a impor uma estrutura na rede neural que a torna um tanto linear.
É uma afirmação válida de que, no aprendizado profundo (incluindo arquiteturas não lineares), os platôs são mais prováveis que os mínimos locais? E se sim, existe uma intuição (possivelmente matemática) por trás disso?
Existe algo em particular sobre aprendizado profundo e pontos de sela?
Respostas:
Isso está simplesmente tentando transmitir minha intuição, ou seja, sem rigor. A questão dos pontos de sela é que eles são um tipo de ótimo que combina uma combinação de mínimos e máximos. Como o número de dimensões é tão grande com o aprendizado profundo, a probabilidade de que um ótimo consista apenas em uma combinação de mínimos é muito baixa. Isso significa que "ficar preso" no mínimo local é raro. Correndo o risco de simplificar demais, é mais difícil "ficar preso" em um ponto de sela, porque você pode "deslizar uma das dimensões". Acho que o vídeo de Andrew Ng a que você se refere vem do curso Coursera sobre Deep Learning por ele.
fonte
A probabilidade de qualquer ponto crítico ser mínimo diminui exponencialmente com a dimensão do espaço de entrada. No aprendizado profundo, esse espaço pode variar de 1000 a108 1 / 2n
Mas e o maxima?
fonte