Fechadas. Esta questão está fora de tópico . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela esteja no tópico de Validação cruzada. Fechado há 4 anos . Estou trabalhando nos benchmarks de...
Fechadas. Esta questão está fora de tópico . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela esteja no tópico de Validação cruzada. Fechado há 4 anos . Estou trabalhando nos benchmarks de...
Descrição do Problema Estou iniciando a construção da rede para um problema que eu acho que poderia ter uma função de perda muito mais criteriosa do que uma simples regressão MSE. Meu problema lida com a classificação de várias categorias ( veja minha pergunta no SO para o que quero dizer com...
Eu fiz uma rede neural convolucional e queria verificar se meus gradientes estão sendo calculados corretamente usando a verificação numérica de gradiente. A questão é, quão perto está o suficiente? Minha função de verificação apenas cospe a derivada calculada, a derivada numericamente aproximada,...
https://www.tensorflow.org/ Todos os projetos do TensorFlow que eu vi no GitHub implementam algum tipo de modelo de rede neural. Dado que o TensorFlow é uma melhoria em relação ao DAG (não é mais acíclico), eu queria saber se algumas deficiências inerentes o tornam inadequado para o modelo geral...
Ultimamente, venho estudando a teoria por trás das RNAs e queria entender a 'mágica' por trás da capacidade de classificação não linear de várias classes. Isso me levou a este site, que faz um bom trabalho em explicar geometricamente como essa aproximação é alcançada. Aqui está como eu entendi (em...
Eu estou pensando sobre as diferenças. Com base no meu entendimento, o MLP é um tipo de rede neural, onde a função de ativação é sigmóide e o termo de erro é um erro de entropia cruzada (logística). Procurando ajuda,
Comecei a ler sobre Redes Neurais Recorrentes (RNNs) e Memória de Longo Prazo (LSTM) ... (... oh, não há pontos de representantes suficientes aqui para listar referências ...) Uma coisa que eu não entendo: sempre parece que os neurônios em cada instância de uma camada oculta ficam "totalmente...
Estou estudando sobre redes neurais artificiais (RNA) pela primeira vez e estou impressionado com a forma como os conceitos de redes neurais parecem ser semelhantes à modelagem de equações estruturais (SEM). Por exemplo, nós de entrada na RNA me lembram variáveis manifestas no SEM Nós ocultos...
Eu li os ótimos comentários sobre como lidar com valores ausentes antes de aplicar o SVD, mas gostaria de saber como ele funciona com um exemplo simples: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Dada a matriz acima, se eu remover os valores de NA, acabarei...
Como um aquecimento com redes neurais recorrentes, estou tentando prever uma onda senoidal de outra onda senoidal de outra frequência. Meu modelo é um RNN simples, seu passe para frente pode ser expresso da seguinte
Em geral, devo treinar minha rede neural com menos neurônios, para que ela tenha menos neurônios ReLU mortos? Eu li opiniões conflitantes sobre ReLUs mortos. Algumas fontes dizem que ReLUs mortos são bons porque incentivam a escarsidade. Outros dizem que são ruins porque as RELUs mortas estão...
Eu queria treinar uma rede com não linearidades que sofrem com o desaparecimento (ou o problema do gradiente explodindo, embora principalmente o desaparecimento). Sei que a maneira padrão (atual) é usar a normalização de lote 1 [BN] 1 ou simplesmente abandonar a não linearidade e usar as unidades...
Minha rede neural recorrente (LSTM, resp. GRU) se comporta de uma maneira que não consigo explicar. O treinamento começa e treina bem (os resultados parecem muito bons) quando a precisão cai repentinamente (e a perda aumenta rapidamente) - métricas de treinamento e teste. Às vezes, a rede fica...
No SGD, uma época seria a apresentação completa dos dados de treinamento e haveria N atualizações de peso por época (se houver N exemplos de dados no conjunto de treinamento). Se agora fizermos mini-lotes, digamos em lotes de 20. Agora, uma época consiste em atualizações de peso N / 20 ou uma...
Encontrei em algum lugar que o conjunto de testes não deve ser usado como um conjunto de validação. Por quê? O conjunto de validação é acionado quando os parâmetros do modelo são fixados e o aprendizado ocorre apenas através do backprop no lote de treinamento. Então, por que não posso usar dados...
Esta pergunta é referente ao documento Deepmind sobre DDPG: https://arxiv.org/pdf/1509.02971v5.pdf . A maioria (todas?) Das implementações do algoritmo DDPG que eu vi computam a atualização do gradiente na rede do ator por
Eu sou novo no aprendizado profundo e estou tentando calcular a derivada da seguinte função em relação à matriz :ww\mathbf w p(a)=ew⊤axΣdew⊤dxp(a)=ewa⊤xΣdewd⊤xp(a) = \frac{e^{w_a^\top x}}{\Sigma_{d} e^{w_d^\top x}} Usando a regra do quociente,
Tenho a seguinte configuração para um projeto de pesquisa de Finanças / Aprendizado de Máquina na minha universidade: estou aplicando uma Rede Neural (Profunda) (MLP) com a seguinte estrutura em Keras / Theano para distinguir estoques com desempenho superior (etiqueta 1) dos estoques com desempenho...
Eu estava lendo o modelo word2vec padrão / famoso e de acordo com as notas do standord para cs224n, a função objetivo muda de: Joriginal=−∑j=0,j≠m2mu⊤c−m+jvc+2mlog(∑k=1|V|exp(u⊤kvc))Joriginal=−∑j=0,j≠m2muc−m+j⊤vc+2mlog(∑k=1|V|exp(uk⊤vc))J_{original} = -\sum^{2m}_{j=0,j\neq m} u^\top_{c-m+j} v_c +...
Eu quero realizar análises de sentimentos em textos, já passei por vários artigos, alguns deles estão usando "Naive Bayes" e outros são "Rede Neural Recorrente (LSTM)" , por outro lado, vi uma biblioteca python para análise de sentimentos que é nltk. Ele usa "Naive Bayes" alguém pode explicar qual...