Qual é a diferença entre época e iteração ao treinar um perceptron de várias
Aprendizado profundo é uma área de aprendizado de máquina cujo objetivo é aprender funções complexas usando arquiteturas de rede neural especiais que são "profundas" (consistem em muitas camadas). Essa tag deve ser usada para perguntas sobre a implementação de arquiteturas de aprendizado profundo. Perguntas gerais sobre aprendizado de máquina devem ser marcadas como "aprendizado de máquina". Incluir uma tag para a biblioteca de software relevante (por exemplo, "keras", "tensorflow", "pytorch", "fast.ai" e etc) é útil.
Qual é a diferença entre época e iteração ao treinar um perceptron de várias
Estou tentando reconciliar meu entendimento dos LSTMs e apontado aqui neste post por Christopher Olah implementado no Keras. Estou seguindo o blog escrito por Jason Brownlee para o tutorial de Keras. O que mais me deixa confuso é, A remodelagem das séries de dados em [samples, time steps,...
Qual é a diferença entre o preenchimento 'SAME' e 'VALID' em tf.nn.max_poolof tensorflow? Na minha opinião, 'VÁLIDO' significa que não haverá preenchimento zero fora das bordas quando fazemos o pool máximo. De acordo com um guia de aritmética de convolução para aprendizado profundo , ele diz que...
Para qualquer camada Keras ( Layerclasse), alguém pode explicar como entender a diferença entre input_shape, units, dim, etc.? Por exemplo, o documento diz unitsespecificar a forma de saída de uma camada. Na imagem da rede neural abaixo hidden layer1tem 4 unidades. Isso se traduz diretamente no...
Na função TensorFlow a seguir, devemos alimentar a ativação de neurônios artificiais na camada final. Isso eu entendo. Mas não entendo por que é chamado logits? Isso não é uma função matemática? loss_function = tf.nn.softmax_cross_entropy_with_logits( logits = last_layer, labels =...
Quando eu treinei minha rede neural com Theano ou Tensorflow, eles reportarão uma variável chamada "perda" por época. Como devo interpretar essa variável? Maior perda é melhor ou pior, ou o que isso significa para o desempenho final (precisão) da minha rede
Eu estava procurando maneiras alternativas de salvar um modelo treinado no PyTorch. Até agora, encontrei duas alternativas. torch.save () para salvar um modelo e torch.load () para carregar um modelo. model.state_dict () para salvar um modelo treinado e model.load_state_dict () para carregar o...
Estou tentando treinar uma CNN para categorizar o texto por tópico. Quando uso entropia cruzada binária, obtenho ~ 80% de precisão, com entropia cruzada categórica recebo ~ 50% de precisão. Eu não entendo por que isso é. É um problema multiclasse, isso não significa que eu tenho que usar entropia...
tf.nn.embedding_lookup(params, ids, partition_strategy='mod', name=None) Não consigo entender o dever dessa função. É como uma tabela de pesquisa? O que significa retornar os parâmetros correspondentes a cada ID (em IDs)? Por exemplo, no skip-grammodelo se usarmos
Treinei um modelo de classificação binária com a CNN, e aqui está o meu código model = Sequential() model.add(Convolution2D(nb_filters, kernel_size[0], kernel_size[1], border_mode='valid', input_shape=input_shape)) model.add(Activation('relu')) model.add(Convolution2D(nb_filters, kernel_size[0],...
Eu tenho lido algumas coisas em redes neurais e entendo o princípio geral de uma rede neural de camada única. Entendo a necessidade de camadas adicionais, mas por que as funções de ativação não linear são usadas? Esta pergunta é seguida por esta: O que é um derivado da função de ativação usada na...
Alguém pode explicar claramente a diferença entre as convoluções 1D, 2D e 3D nas redes neurais convolucionais (na aprendizagem profunda) com o uso de
Estou tentando entender o papel da Flattenfunção em Keras. Abaixo está meu código, que é uma rede simples de duas camadas. Ele recebe dados bidimensionais de forma (3, 2) e produz dados unidimensionais de forma (1, 4): model = Sequential() model.add(Dense(16, input_shape=(3,...
Tento entender os LSTMs e como construí-los com Keras. Eu descobri que existem principalmente os 4 modos de executar um RNN (os 4 certos na foto) Fonte da imagem: Andrej Karpathy Agora eu me pergunto como um trecho de código minimalista para cada um deles ficaria em Keras. Então algo como model...
Como inicializar os pesos e vieses (por exemplo, com inicialização de He ou Xavier) em uma rede em PyTorch?
Se tivermos 10 autovetores, então podemos ter 10 nós neurais na camada de entrada. Se tivermos 5 classes de saída, então podemos ter 5 nós na camada de saída. Mas qual é o critério para escolher o número de camadas ocultas em um MLP e quantas nós em 1 camada
Eu estava tentando replicar como usar o empacotamento para entradas de sequência de comprimento variável para rnn, mas acho que primeiro preciso entender por que precisamos "empacotar" a sequência. Eu entendo por que precisamos "preenchê-los", mas por que "empacotar" (através...
Estou treinando uma rede neural para meu projeto usando Keras. Keras forneceu uma função de parada precoce. Posso saber quais parâmetros devem ser observados para evitar que minha rede neural se ajuste excessivamente usando a parada
Considerando o código de exemplo . Gostaria de saber como aplicar gradiente nessa rede no RNN onde existe a possibilidade de explodir gradientes. tf.clip_by_value(t, clip_value_min, clip_value_max, name=None) Este é um exemplo que poderia ser usado, mas onde posso apresentá-lo? Na defesa do...
Recentemente, revisei uma implementação interessante para classificação de texto convolucional . No entanto, todo o código do TensorFlow que analisei usa vetores de incorporação aleatórios (não pré-treinados) como o seguinte: with tf.device('/cpu:0'), tf.name_scope("embedding"): W = tf.Variable(...