Eu tenho dois tensores a:[batch_size, dim] b:[batch_size, dim]. Quero fazer um produto interno para cada par do lote, gerando c:[batch_size, 1], onde c[i,0]=a[i,:].T*b[i,:].
Eu tenho dois tensores a:[batch_size, dim] b:[batch_size, dim]. Quero fazer um produto interno para cada par do lote, gerando c:[batch_size, 1], onde c[i,0]=a[i,:].T*b[i,:].
Na introdução , acabei de mudar loss = tf.reduce_mean(tf.square(y - y_data)) para loss = tf.reduce_mean(tf.abs(y - y_data)) e o modelo é incapaz de aprender a perda se tornou maior com o tempo. Por
Eu estou querendo saber como interpretar uma arquitetura recorrente em um contexto EEG. Especificamente, estou pensando nisso como uma CNN recorrente (em oposição a arquiteturas como LSTM), mas talvez se aplique a outros tipos de redes recorrentes também Quando leio sobre R-CNNs, elas geralmente...
Eu gostaria de poder estimar se um modelo proposto é pequeno o suficiente para ser treinado em uma GPU com uma determinada quantidade de memória Se eu tiver uma arquitetura CNN simples como esta: Input: 50x50x3 C1: 32 núcleos 3x3, com preenchimento (acho que na realidade são 3x3x3, dada a...
Contexto: Ao ajustar redes neurais com ativação relu, descobri que algumas vezes a previsão fica quase constante. Acredito que isso se deva à morte dos neurônios durante o treinamento, conforme indicado aqui. ( Qual é o problema da "ReLU moribunda" nas redes neurais? ) Pergunta: O que eu espero...
Vamos supor que estamos usando um tamanho de lote de 100 amostras para aprender. Assim, em cada lote, o peso de cada neurônio (e viés, etc.) está sendo atualizado adicionando menos a taxa de aprendizado * o valor médio de erro que encontramos usando as 100 amostras * a derivada da função de erro...
Sou iniciante em redes neurais e atualmente estou explorando o modelo word2vec. No entanto, estou tendo um momento difícil para entender o que exatamente é a matriz de recursos. Eu posso entender que a primeira matriz é um vetor de codificação one-hot para uma determinada palavra, mas o que a...
Li a explicação da convolução e a compreendi até certo ponto. Alguém pode me ajudar a entender como essa operação se relaciona à convolução nas redes neurais convolucionais? O filtro é uma função gque aplica
A normalização de lote é descrita neste documento como uma normalização da entrada para uma função de ativação com variáveis de escala e deslocamento e \ beta . Este artigo descreve principalmente o uso da função de ativação sigmóide, que faz sentido. No entanto, parece-me que alimentar uma...
Gostaria de usar ANNs para o meu problema, mas o problema é que minhas entradas e saídas não são corrigidas. Eu fiz algumas pesquisas no google antes de fazer minha pergunta e descobri que a RNN pode me ajudar com o meu problema. Mas todos os exemplos que encontrei de alguma forma definiram o...
Estou tentando criar um sistema de reconhecimento de gestos para classificar gestos ASL (American Sign Language) , então minha entrada deve ser uma sequência de quadros de uma câmera ou de um arquivo de vídeo, em seguida, ele detecta a sequência e a mapeia para a correspondência aula (dormir,...
Acabei de aprender sobre a regularização como uma abordagem para controlar o ajuste excessivo e gostaria de incorporar a ideia em uma implementação simples de retropropagação e perceptron de múltiplas camadas (MLP) que montei. Atualmente, para evitar o ajuste excessivo, valido cruzadamente e...
Estou vendo como implementar desistências em redes neurais profundas e achei algo contra-intuitivo. Na fase avançada, oculte as ativações com um tensor aleatório de 1s e 0s para forçar a rede a aprender a média dos pesos. Isso ajuda a rede a generalizar melhor. Mas durante a fase de atualização da...
Existem trabalhos publicados que mostram diferenças nos métodos de regularização de redes neurais, preferencialmente em domínios diferentes (ou pelo menos diferentes conjuntos de dados)? Estou perguntando, porque atualmente tenho a sensação de que a maioria das pessoas parece usar apenas o...
Ao implementar a descida gradiente de minilote para redes neurais, é importante levar elementos aleatórios em cada minilote? Ou é suficiente embaralhar os elementos no início do treinamento uma vez? (Também estou interessado em fontes que definitivamente dizem o que
Estou tentando entender a aprendizagem por reforço e os processos de decisão de markov (MDP) no caso em que uma rede neural está sendo usada como aproximador de funções. Estou tendo dificuldades com o relacionamento entre o MDP, onde o ambiente é explorado de maneira probabilística, como isso é...
Ao treinar redes neurais, há pelo menos quatro maneiras de regularizar a rede: Regularização L1 Regularização L2 Cair fora Normalização de lote além disso, é claro, outras coisas, como compartilhamento de peso e redução do número de conexões, que podem não ser regularização no sentido mais...
Atualmente, estou trabalhando na recriação dos resultados deste artigo . No artigo, eles descrevem um método para usar CNN para extração de recursos e têm um modelo acústico que é Dnn-hmm e pré-treinado usando RBM. Seção III, subseção A, declara maneiras diferentes pelas quais os dados de entrada...
Estou tentando aprender como as LSTMredes funcionam e, mesmo que eu entenda o básico, os detalhes da estrutura interna não estão claros para mim. Neste link do blog , encontrei esse esquema de LSTMarquitetura Onde aparentemente, todo círculo deve corresponder a uma LSTMunidade individual como...
Suponha que eu tenha um conjunto de sinais no domínio do tempo com absolutamente nenhum rótulo . Eu quero agrupá-los em 2 ou 3 classes. Autoencoders são redes não supervisionadas que aprendem a comprimir as entradas. Portanto, dada uma entrada , ponderações e , desvios e e saída , podemos encontrar...