Por que é perigoso inicializar pesos com zeros? Existe algum exemplo simples que demonstre
Por que é perigoso inicializar pesos com zeros? Existe algum exemplo simples que demonstre
Eu estava lendo o artigo Classificação ImageNet com redes neurais profundas convolucionais e, na seção 3, eles explicaram a arquitetura de sua rede neural convolucional e explicaram como preferiam usar: não saturante não linearidade f(x)=max(0,x).f(x)=max(0,x).f(x) = max(0, x). porque era...
Qual é a diferença entre rede neural , rede bayesiana , árvore de decisão e redes de Petri , mesmo que todos sejam modelos gráficos e representem visualmente a relação
Estou usando o sinal de intercalação para executar uma floresta aleatória validada cruzada em um conjunto de dados. A variável Y é um fator. Não há NaN, Inf ou NA no meu conjunto de dados. No entanto, ao executar a floresta aleatória, recebo Error in randomForest.default(m, y, ...) : NA/NaN/Inf...
Vou explicar meu problema com um exemplo. Suponha que você queira prever a renda de um indivíduo, com alguns atributos: {Idade, Sexo, País, Região, Cidade}. Você tem um conjunto de dados de treinamento como esse train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2,...
Por que os nós de viés são usados em redes neurais? Quantos você deve usar? Em quais camadas você deve usá-las: todas as camadas ocultas e a camada de
Estou treinando uma rede neural simples no conjunto de dados CIFAR10. Após algum tempo, a perda de validação começou a aumentar, enquanto a precisão da validação também aumentou. A perda e a precisão do teste continuam a melhorar. Como isso é possível? Parece que, se a perda de validação aumentar,...
Estou confuso. Existe uma diferença entre as redes de crenças profundas e as máquinas Deep Boltzmann? Se sim, qual a
Digamos que queremos fazer a regressão de forma simples f = x * yusando uma rede neural profunda padrão. Lembro-me de que existem novas pesquisas que indicam que NN com uma camada hiden pode aproximar qualquer função, mas tentei e sem normalização o NN não conseguiu aproximar nem mesmo essa...
Para modelos estatísticos e de aprendizado de máquina, existem vários níveis de interpretabilidade: 1) o algoritmo como um todo, 2) partes do algoritmo em geral 3) partes do algoritmo em entradas específicas, e esses três níveis divididos em duas partes cada, um para treinamento e outro para...
Ao treinar redes neurais de segmentação de pixel, como redes totalmente convolucionais, como você decide usar a função de perda de entropia cruzada versus a função de perda de coeficiente de dados? Sei que essa é uma pergunta curta, mas não tenho certeza de que outras informações fornecer....
Suponha que eu queira fazer uma classificação binária (algo pertence à classe A ou classe B). Existem algumas possibilidades para fazer isso na camada de saída de uma rede neural: Use 1 nó de saída. A saída 0 (<0,5) é considerada classe A e 1 (> = 0,5) é considerada classe B (no caso de...
Eu li aqui o seguinte: As saídas sigmóides não são centralizadas em zero . Isso é indesejável, uma vez que neurônios em camadas posteriores de processamento em uma rede neural (mais sobre isso em breve) receberiam dados que não são centralizados em zero. Isto tem implicações sobre a dinâmica...
Estou interessado em regressão com redes neurais. Redes neurais com zero nós ocultos + conexões de camada de salto são modelos lineares. E as mesmas redes neurais, mas com nós ocultos? Eu estou querendo saber qual seria o papel das conexões skip-layer? Intuitivamente, eu diria que, se você...
Minha perda de treinamento diminui e depois sobe novamente. Isso é muito estranho. A perda de validação cruzada rastreia a perda de treinamento. O que está acontecendo? Eu tenho dois LSTMS empilhados da seguinte maneira (no Keras): model = Sequential() model.add(LSTM(512, return_sequences=True,...
Fechado . Esta questão é baseada em opiniões . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela possa ser respondida com fatos e citações editando esta postagem . Fechado há 2 anos . Problema...
Esta pergunta foi migrada do Stack Overflow porque pode ser respondida em Validação cruzada. Migrou há 7 anos . Estou tentando aprender como a Rede Neural funciona no reconhecimento de imagens. Eu já vi alguns exemplos e fiquei ainda mais confuso. No exemplo do
Por que as funções de ativação de unidades lineares retificadas (ReLU) são consideradas não lineares? f( x ) = max ( 0 , x )f(x)=max(0 0,x) f(x) = \max(0,x) Eles são lineares quando a entrada é positiva e, do meu entendimento, para desbloquear o poder representativo das redes profundas, as...
Fiquei me perguntando, por que é tão importante ter um aprendizado de máquina por princípios / teórico? De uma perspectiva pessoal como humano, posso entender por que o Machine Learning por princípios seria importante: humanos gostam de entender o que estão fazendo, encontramos beleza e...
Eu quero usar o aprendizado profundo no meu projeto. Examinei alguns artigos e me ocorreu uma pergunta: existe alguma diferença entre rede neural de convolução e aprendizado profundo? Essas coisas são iguais ou existem grandes diferenças e qual é a