Normalização em lote e ReLUs são soluções para o problema do gradiente de fuga. Se estamos usando a normalização em lote, devemos usar sigmoides? Ou existem recursos de ReLUs que os fazem valer a pena mesmo ao usar batchnorm?
Suponho que a normalização feita no batchnorm enviará zero ativações negativas. Isso significa que o batchnorm resolve o problema "ReLU morto"?
Mas a natureza contínua do tanh e da logística permanece atraente. Se eu estiver usando batchnorm, o tanh funcionará melhor que o ReLU?
Tenho certeza de que a resposta depende . Então, o que funcionou na sua experiência e quais são os principais recursos do seu aplicativo?
deep-learning
batch-normalization
generic_user
fonte
fonte
Respostas:
Veja, o conceito básico por trás da normalização de lote é que (trecho de um artigo do Medium) -
Leia o artigo aqui.
fonte
madman respondeu sua pergunta sobre a normalização de lotes corretamente e deixe-me responder sua segunda parte, de que forma as funções contínuas podem parecer atraentes, mas relu é melhor que todas elas e essa afirmação não é do meu lado. Hinton citou: "éramos pessoas burras que estavam usando sigmóide como uma função de ativação e demorou 30 anos para que essa percepção ocorresse que, sem entender sua forma, nunca deixaria seu neurônio entrar em um estado de aprendizado que está sempre saturando. ele chamou a si mesmo e a todos os outros pessoas estupefatas ".Então, escolher uma função de ativação apenas porque é contínua e não está olhando como isso afetará seu neurônio '
Nota: Se você está estudando redes neurais, aconselho você a pensar em redes neurais como funções compostas grandes e profundas para entender o que funciona e por que funciona. É necessário entender como uma rede neural cria uma variedade de dados em alguma dimensão superior "representando "aqueles dados em que a qualidade do coletor depende da sua escolha de funções e como uma função transforma as outras funções produzidas quando atribuídas a ela como entrada.
fonte