A normalização em lote significa que os sigmóides funcionam melhor que as ReLUs?

9

Normalização em lote e ReLUs são soluções para o problema do gradiente de fuga. Se estamos usando a normalização em lote, devemos usar sigmoides? Ou existem recursos de ReLUs que os fazem valer a pena mesmo ao usar batchnorm?

Suponho que a normalização feita no batchnorm enviará zero ativações negativas. Isso significa que o batchnorm resolve o problema "ReLU morto"?

Mas a natureza contínua do tanh e da logística permanece atraente. Se eu estiver usando batchnorm, o tanh funcionará melhor que o ReLU?

Tenho certeza de que a resposta depende . Então, o que funcionou na sua experiência e quais são os principais recursos do seu aplicativo?

generic_user
fonte
Mesmo se o documento sugerir o uso do BatchNorm antes da ativação, foi verificado na prática que melhores soluções são produzidas se o BN for aplicado depois. Se eu não ignorar algo que deveria significar, que, no último caso, o BN não tem efeito na ativação. Mas, é claro, é uma questão em aberto, se o BN funcionaria melhor quando aplicado antes e com outra ativação que o ReLU. Na minha opinião, não. Porque o ReLU ainda tem outras vantagens, como uma derivação mais simples. Mas eu também estou curioso. Talvez alguém tenha feito experiências nesse campo.
Oezguensi

Respostas:

1

Veja, o conceito básico por trás da normalização de lote é que (trecho de um artigo do Medium) -

Normalizamos nossa camada de entrada ajustando e dimensionando as ativações. Por exemplo, quando temos recursos de 0 a 1 e alguns de 1 a 1000, devemos normalizá-los para acelerar o aprendizado. Se a camada de entrada está se beneficiando dela, por que não fazer o mesmo com os valores nas camadas ocultas, que mudam o tempo todo, e obtém 10 vezes ou mais melhorias na velocidade de treinamento.

Leia o artigo aqui.

frumac1 1/(1 1+1 1/e)

Louco
fonte
0

madman respondeu sua pergunta sobre a normalização de lotes corretamente e deixe-me responder sua segunda parte, de que forma as funções contínuas podem parecer atraentes, mas relu é melhor que todas elas e essa afirmação não é do meu lado. Hinton citou: "éramos pessoas burras que estavam usando sigmóide como uma função de ativação e demorou 30 anos para que essa percepção ocorresse que, sem entender sua forma, nunca deixaria seu neurônio entrar em um estado de aprendizado que está sempre saturando. ele chamou a si mesmo e a todos os outros pessoas estupefatas ".Então, escolher uma função de ativação apenas porque é contínua e não está olhando como isso afetará seu neurônio '

Nota: Se você está estudando redes neurais, aconselho você a pensar em redes neurais como funções compostas grandes e profundas para entender o que funciona e por que funciona. É necessário entender como uma rede neural cria uma variedade de dados em alguma dimensão superior "representando "aqueles dados em que a qualidade do coletor depende da sua escolha de funções e como uma função transforma as outras funções produzidas quando atribuídas a ela como entrada.

khwaja wisal
fonte