mínimos locais vs pontos de sela na aprendizagem profunda

18

Ouvi Andrew Ng (em um vídeo que infelizmente não consigo mais encontrar) falar sobre como a compreensão dos mínimos locais em problemas de aprendizagem profunda mudou no sentido de que agora eles são considerados menos problemáticos porque em espaços de alta dimensão (encontrados em aprendizado profundo) é mais provável que os pontos críticos sejam pontos de sela ou platôs, em vez de mínimos locais.

Eu já vi artigos (por exemplo, este ) que discutem suposições sob as quais "todo mínimo local é um mínimo global". Essas suposições são todas bastante técnicas, mas pelo que entendi elas tendem a impor uma estrutura na rede neural que a torna um tanto linear.

É uma afirmação válida de que, no aprendizado profundo (incluindo arquiteturas não lineares), os platôs são mais prováveis ​​que os mínimos locais? E se sim, existe uma intuição (possivelmente matemática) por trás disso?

Existe algo em particular sobre aprendizado profundo e pontos de sela?

oW_
fonte
12
Quando se trata da intuição matemática, por que um ponto de sela é mais provável que um mínimo local, eu pensaria nisso em termos de recursos. Para ser um mínimo local, deve ser um mínimo local em todas as direções. Por outro lado, para um ponto de sela, apenas uma direção deve ser diferente das outras. É muito mais provável que um ou mais tenham comportamentos diferentes dos outros, em comparação com o mesmo comportamento em todas as direções.
Paul
3
obrigado, agora que você disse isso, é meio óbvio ... aqui está uma discussão interessante sobre o tópico
oW_
4
Andrew Ng tem um vídeo sobre "O problema dos mínimos locais" na semana 2 do seu curso Coursera, "Melhorando as redes neurais profundas: ajuste de hiperparâmetro, regularização e otimização". Talvez seja o que você está procurando.
Mjul
dê uma olhada aqui
Media

Respostas:

7

Isso está simplesmente tentando transmitir minha intuição, ou seja, sem rigor. A questão dos pontos de sela é que eles são um tipo de ótimo que combina uma combinação de mínimos e máximos. Como o número de dimensões é tão grande com o aprendizado profundo, a probabilidade de que um ótimo consista apenas em uma combinação de mínimos é muito baixa. Isso significa que "ficar preso" no mínimo local é raro. Correndo o risco de simplificar demais, é mais difícil "ficar preso" em um ponto de sela, porque você pode "deslizar uma das dimensões". Acho que o vídeo de Andrew Ng a que você se refere vem do curso Coursera sobre Deep Learning por ele.

user41985
fonte
13

D=[d1dn]
d1>0 0,...,dn>0 0

d1,...,dndEu1/2dEudj, devido à alta não linearidade da matriz hessiana, consideraremos as probabilidades de que sejam positivas como eventos independentes.

P(d1>0 0,...,dn>0 0)=P(d1>0 0)P(dn>0 0)=12n

A probabilidade de qualquer ponto crítico ser mínimo diminui exponencialmente com a dimensão do espaço de entrada. No aprendizado profundo, esse espaço pode variar de 1000 a1081/2n

Mas e o maxima?

1/2n

P(sumaddeue)=1-P(mumaxEumvocêm)-P(mEunEumvocêm)=1-12n-12n=1-12n-1

n

David Masip
fonte