Perguntas com a marcação «neural-networks»

44
Qual função de ativação para a camada de saída?

Embora a escolha das funções de ativação para a camada oculta seja bastante clara (principalmente sigmóide ou tanh), pergunto-me como decidir sobre a função de ativação para a camada de saída. As escolhas comuns são funções lineares, funções sigmóides e funções softmax. No entanto, quando devo usar...

43
Camada Softmax em uma rede neural

Estou tentando adicionar uma camada softmax a uma rede neural treinada com retropropagação, então estou tentando calcular seu gradiente. A saída do softmax é hj=ezj∑ezihj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}} , ondejjjé o número de neurónios de saída. Se eu der, então eu...

42
O que é maxout na rede neural?

Alguém pode explicar o que as unidades maxout em uma rede neural fazem? Como eles funcionam e como eles diferem das unidades convencionais? Tentei ler o artigo "Maxout Network" de 2013 de Goodfellow et al. (do grupo do professor Yoshua Bengio), mas não entendi

36
A função de custo da rede neural não é convexa?

A função de custo da rede neural é J(W,b)J(W,b)J(W,b) e é reivindicada como não convexa . Não entendo muito bem por que é assim, pois, como vejo, é bastante semelhante à função de custo da regressão logística, certo? Se não for convexa, a derivada de 2ª ordem ∂J∂W<0∂J∂W<0\frac{\partial...

36
Aprendizado de máquina: devo usar uma perda de entropia cruzada categórica ou de entropia cruzada binária para previsões binárias?

Antes de tudo, percebi que, se preciso realizar previsões binárias, tenho que criar pelo menos duas classes executando uma codificação one-hot. Isso está correto? No entanto, a entropia cruzada binária é apenas para previsões com apenas uma classe? Se eu usasse uma perda de entropia cruzada...

35
Como o LSTM evita o problema de gradiente de fuga?

O LSTM foi inventado especificamente para evitar o problema do gradiente de fuga. Supõe-se que isso seja feito com o Constant Error Carousel (CEC), que no diagrama abaixo (de Greff et al. ) Corresponde ao loop em torno da célula . (fonte: deeplearning4j.org ) E eu entendo que essa parte pode...