Perguntas com a marcação «neural-networks»

45

Diferença entre GradientDescentOptimizer e AdamOptimizer (TensorFlow)?

Eu escrevi um MLP simples no TensorFlow que está modelando um XOR-Gate . Então para: input_data = [[0., 0.], [0., 1.], [1., 0.], [1., 1.]] deve produzir o seguinte: output_data = [[0.], [1.], [1.], [0.]] A rede possui uma camada de entrada, uma camada oculta e uma camada de saída com 2, 5 e...

44

Qual função de ativação para a camada de saída?

Embora a escolha das funções de ativação para a camada oculta seja bastante clara (principalmente sigmóide ou tanh), pergunto-me como decidir sobre a função de ativação para a camada de saída. As escolhas comuns são funções lineares, funções sigmóides e funções softmax. No entanto, quando devo usar...

neural-networks

44

Como os kernels são aplicados aos mapas de recursos para produzir outros mapas de recursos?

Estou tentando entender a parte da convolução das redes neurais convolucionais. Observando a figura a seguir: Não tenho problemas para entender a primeira camada de convolução, na qual temos 4 núcleos diferentes (de tamanho ), que convolvemos com a imagem de entrada para obter 4 mapas de...

machine-learning neural-networks deep-learning conv-neural-network

43

Camada Softmax em uma rede neural

Estou tentando adicionar uma camada softmax a uma rede neural treinada com retropropagação, então estou tentando calcular seu gradiente. A saída do softmax é hj=ezj∑ezihj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}} , ondejjjé o número de neurónios de saída. Se eu der, então eu...

neural-networks

43

Referências de redes neurais (livros didáticos, cursos on-line) para iniciantes

Eu quero aprender redes neurais. Sou lingüista computacional. Conheço abordagens estatísticas de aprendizado de máquina e posso codificar em Python. Pretendo começar com seus conceitos e conhecer um ou dois modelos populares que podem ser úteis do ponto de vista da Linguística...

neural-networks deep-learning references natural-language computer-vision

42

O que é maxout na rede neural?

Alguém pode explicar o que as unidades maxout em uma rede neural fazem? Como eles funcionam e como eles diferem das unidades convencionais? Tentei ler o artigo "Maxout Network" de 2013 de Goodfellow et al. (do grupo do professor Yoshua Bengio), mas não entendi

machine-learning neural-networks

41

Redes Neurais: momento de mudança de peso e decaimento de peso

Momentum é usado para diminuir as flutuações nas alterações de peso em iterações consecutivas:αα\alpha E(w)wηΔ ωEu( t + 1 ) = - η∂E∂WEu+ α Δ ωEu( T ) ,ΔωEu(t+1)=-η∂E∂WEu+αΔωEu(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), que é a função de erro, - o...

neural-networks optimization regularization gradient-descent

40

Quais são as diferenças entre os modelos ocultos de Markov e as redes neurais?

Estou apenas começando a me molhar nas estatísticas, então desculpe se esta pergunta não faz sentido. Eu usei os modelos de Markov para prever estados ocultos (cassinos injustos, jogadas de dados etc.) e redes neurais para estudar os cliques dos usuários em um mecanismo de pesquisa. Ambos tinham...

data-mining algorithms neural-networks markov-process

40

Normalização e padronização de dados em redes neurais

Estou tentando prever o resultado de um sistema complexo usando redes neurais (RNAs). Os valores do resultado (dependentes) variam entre 0 e 10.000. As diferentes variáveis de entrada têm intervalos diferentes. Todas as variáveis têm distribuições aproximadamente normais. Considero diferentes...

machine-learning neural-networks multidimensional-scaling

40

Como a função de ativação retilínea resolve o problema do gradiente de fuga nas redes neurais?

Encontrei a unidade linear retificada (ReLU) elogiada em vários locais como uma solução para o problema do gradiente de fuga para redes neurais. Ou seja, usa-se max (0, x) como função de ativação. Quando a ativação é positiva, é óbvio que isso é melhor do que, digamos, a função de ativação...

machine-learning neural-networks deep-learning gradient-descent

40

Por que a função sigmóide em vez de qualquer outra coisa?

Por que a função sigmóide padrão de fato, , é tão popular em redes neurais (não profundas) e em regressão logística?1 11 + e- x1 11 1+e-x\frac{1}{1+e^{-x}} Por que não usamos muitas das outras funções deriváveis, com tempo de computação mais rápido ou decaimento mais lento (para que o gradiente de...

logistic neural-networks least-squares

38

ImageNet: qual é a taxa de erro top 1 e 5?

Nos documentos de classificação da ImageNet, as taxas de erro 1 e 5 são unidades importantes para medir o sucesso de algumas soluções, mas quais são essas taxas? Na classificação ImageNet com redes neurais profundas convolucionais por Krizhevsky et al. todas as soluções baseadas em uma única CNN...

classification neural-networks error measurement-error image-processing

37

Como visualizar / entender o que uma rede neural está fazendo?

As redes neurais são frequentemente tratadas como "caixas pretas" devido à sua estrutura complexa. Isso não é ideal, pois geralmente é benéfico ter uma compreensão intuitiva de como um modelo está funcionando internamente. Quais são os métodos para visualizar como uma rede neural treinada está...

data-visualization neural-networks

37

Por que a regularização não resolve a fome das redes neurais profundas por dados?

Um problema que eu vi com frequência levantado no contexto das redes neurais em geral, e das redes neurais profundas em particular, é que elas têm "fome de dados" - ou seja, elas não têm um bom desempenho, a menos que tenhamos um grande conjunto de dados com o qual treinar a rede. Meu entendimento...

neural-networks deep-learning regularization

37

O que devo fazer quando minha rede neural não se generaliza bem?

Estou treinando uma rede neural e a perda de treinamento diminui, mas a perda de validação não diminui ou diminui muito menos do que eu esperava, com base em referências ou experimentos com arquiteturas e dados muito semelhantes. Como posso consertar isso? Quanto à pergunta O que devo fazer...

neural-networks deep-learning

37

Diferença entre "kernel" e "filter" na CNN

Qual é a diferença entre os termos "kernel" e "filter" no contexto de redes neurais

neural-networks terminology deep-learning conv-neural-network

36

A função de custo da rede neural não é convexa?

A função de custo da rede neural é J(W,b)J(W,b)J(W,b) e é reivindicada como não convexa . Não entendo muito bem por que é assim, pois, como vejo, é bastante semelhante à função de custo da regressão logística, certo? Se não for convexa, a derivada de 2ª ordem ∂J∂W<0∂J∂W<0\frac{\partial...

neural-networks loss-functions

36

Aprendizado de máquina: devo usar uma perda de entropia cruzada categórica ou de entropia cruzada binária para previsões binárias?

Antes de tudo, percebi que, se preciso realizar previsões binárias, tenho que criar pelo menos duas classes executando uma codificação one-hot. Isso está correto? No entanto, a entropia cruzada binária é apenas para previsões com apenas uma classe? Se eu usasse uma perda de entropia cruzada...

machine-learning neural-networks loss-functions tensorflow cross-entropy

35

Como o LSTM evita o problema de gradiente de fuga?

O LSTM foi inventado especificamente para evitar o problema do gradiente de fuga. Supõe-se que isso seja feito com o Constant Error Carousel (CEC), que no diagrama abaixo (de Greff et al. ) Corresponde ao loop em torno da célula . (fonte: deeplearning4j.org ) E eu entendo que essa parte pode...

neural-networks lstm

35

Quais são as diferenças entre codificação esparsa e autoencoder?

A codificação esparsa é definida como a aprendizagem de um conjunto excessivo de vetores básicos para representar vetores de entrada (<- por que queremos isso). Quais são as diferenças entre codificação esparsa e autoencoder? Quando usaremos a codificação esparsa e o

machine-learning neural-networks unsupervised-learning deep-learning autoencoders