Na introdução , acabei de mudar loss = tf.reduce_mean(tf.square(y - y_data)) para loss = tf.reduce_mean(tf.abs(y - y_data)) e o modelo é incapaz de aprender a perda se tornou maior com o tempo. Por
Na introdução , acabei de mudar loss = tf.reduce_mean(tf.square(y - y_data)) para loss = tf.reduce_mean(tf.abs(y - y_data)) e o modelo é incapaz de aprender a perda se tornou maior com o tempo. Por
Digamos que você tenha um conjunto de dados com milhões de linhas e os atributos Texto sem formatação, Chave e Texto cifrado de saída. O Deep Learning, teoricamente, poderia ser usado para encontrar padrões nas saídas que ajudam a decifrar o texto cifrado? Existem outras abordagens em...
Estou tentando criar um sistema de reconhecimento de gestos para classificar gestos ASL (American Sign Language) , então minha entrada deve ser uma sequência de quadros de uma câmera ou de um arquivo de vídeo, em seguida, ele detecta a sequência e a mapeia para a correspondência aula (dormir,...
Vamos supor que estamos usando um tamanho de lote de 100 amostras para aprender. Assim, em cada lote, o peso de cada neurônio (e viés, etc.) está sendo atualizado adicionando menos a taxa de aprendizado * o valor médio de erro que encontramos usando as 100 amostras * a derivada da função de erro...
Li a explicação da convolução e a compreendi até certo ponto. Alguém pode me ajudar a entender como essa operação se relaciona à convolução nas redes neurais convolucionais? O filtro é uma função gque aplica
A normalização de lote é descrita neste documento como uma normalização da entrada para uma função de ativação com variáveis de escala e deslocamento e \ beta . Este artigo descreve principalmente o uso da função de ativação sigmóide, que faz sentido. No entanto, parece-me que alimentar uma...
Atualmente, estou fazendo um curso no tensorflow no qual eles usaram tf.one_hot (índices, profundidade). Agora não entendo como esses índices mudam para essa sequência binária. Alguém por favor pode me explicar o processo exato
Agora, li um livro intitulado "Aprendizado de máquina prático com o Scikit-Learn e TensorFlow" e, no capítulo 11, ele tem a seguinte descrição sobre a explicação de ELU (Exponential ReLU). Terceiro, a função é suave em todos os lugares, incluindo z = 0, o que ajuda a acelerar a descida do...
Estou lendo o artigo de base Sequence to Sequence Learning with Neural Networks de Ilya Sutskever e Quoc Le. Na primeira página, menciona brevemente que: A surprising example of the power of DNNs is their ability to sort N N-bit numbers using only 2 hidden layers of quadratic size Alguém pode...
Estou tentando implementar um algoritmo em que, dada uma imagem com vários objetos em uma tabela plana, é desejada a saída de máscaras de segmentação para cada objeto. Ao contrário das CNN, o objetivo aqui é detectar objetos em um ambiente desconhecido. Quais são as melhores abordagens para esse...
Por alguma razão, o AlphaGo Zero não está recebendo tanta publicidade quanto o AlphaGo original, apesar de seus resultados incríveis. Começando do zero, ele já venceu o AlphaGo Master e passou por vários outros benchmarks. Ainda mais incrivelmente, isso é feito em 40 dias. O Google o nomeia como...
Estou aprendendo a usar o Keras e tive um sucesso razoável com meu conjunto de dados rotulado usando os exemplos do Deep Learning for Python da Chollet . O conjunto de dados é de ~ 1000 séries temporais com comprimento 3125 e 3 classes potenciais. Gostaria de ir além das camadas básicas densas,...
Estou vendo como implementar desistências em redes neurais profundas e achei algo contra-intuitivo. Na fase avançada, oculte as ativações com um tensor aleatório de 1s e 0s para forçar a rede a aprender a média dos pesos. Isso ajuda a rede a generalizar melhor. Mas durante a fase de atualização da...
Estou tentando treinar essa implementação Keras do Deeplabv3 + no Pascal VOC2012, usando o modelo pré-treinado (que também foi treinado nesse conjunto de dados). Eu obtive resultados estranhos com a precisão convergindo rapidamente para a 1.0: 5/5 [==============================] - 182s 36s/step...
O Numer.ai já existe há algum tempo e parece haver apenas alguns posts ou outras discussões sobre o assunto na web. O sistema mudou de tempos em tempos e a configuração hoje é a seguinte: dados de trem (N = 96K) e teste (N = 33K) com 21 características com valores contínuos em [0,1] e um alvo...
Eu sou Ph.D. em matemática aluno interessado em ingressar na indústria como cientista de dados após a graduação. Apresentarei brevemente alguns antecedentes sobre minha educação antes de fazer minha pergunta, para que seja melhor compreendida: Curso de Matemática: Isso tem sido principalmente em...
No presente trabalho altamente citados , os autores dar a seguinte discussão sobre o número de parâmetros de peso. Não estou muito claro por que ele tem parâmetros C 2 . Eu acho que deveria ser 49 C, já que cada um dos canais de entrada C compartilha o mesmo filtro, que possui 49...
Normalização em lote e ReLUs são soluções para o problema do gradiente de fuga. Se estamos usando a normalização em lote, devemos usar sigmoides? Ou existem recursos de ReLUs que os fazem valer a pena mesmo ao usar batchnorm? Suponho que a normalização feita no batchnorm enviará zero ativações...
Estou tentando aprender como as LSTMredes funcionam e, mesmo que eu entenda o básico, os detalhes da estrutura interna não estão claros para mim. Neste link do blog , encontrei esse esquema de LSTMarquitetura Onde aparentemente, todo círculo deve corresponder a uma LSTMunidade individual como...
No artigo Super-resolução de imagem única foto-realista usando uma rede adversa generativa de Christian Ledig et al., A distância entre imagens (usada na função de perda) é calculada a partir de mapas de características extraídos da rede VGG19. Os dois usados no artigo são (um pouco confusos)...