A principal diferença entre uma GRU e um LSTM é que uma GRU possui duas portas ( redefinir e atualizar portas), enquanto uma LSTM possui três portas (portas de entrada , saída e esquecimento ).
Por que usamos GRU quando claramente temos mais controle sobre a rede através do modelo LSTM (como temos três portas)? Em que cenário a GRU é preferida à LSTM?
neural-network
deep-learning
Sayali Sonawane
fonte
fonte
Respostas:
A GRU está relacionada ao LSTM, pois ambas estão utilizando maneiras diferentes de fornecer informações para evitar o problema de gradiente de fuga. Aqui estão alguns pontos importantes sobre GRU vs LSTM-
Para uma descrição detalhada, você pode explorar este documento - Arxiv.org . O artigo explica tudo isso de forma brilhante.
Além disso, você também pode explorar esses blogs para ter uma idéia melhor -
Espero que ajude!
fonte
* Para complementar já ótimas respostas acima.
De acordo com minha experiência, as GRUs treinam mais rápido e têm melhor desempenho do que LSTMs em menos dados de treinamento se você estiver fazendo modelagem de linguagem (não tenho certeza sobre outras tarefas).
As GRUs são mais simples e, portanto, mais fáceis de modificar, por exemplo, adicionando novas portas em caso de entrada adicional na rede. É apenas menos código em geral.
Os LSTMs devem, em teoria, lembrar sequências mais longas que as GRUs e superá-las em tarefas que exigem modelagem de relações de longa distância.
* Alguns trabalhos adicionais que analisam GRUs e LSTMs.
"GPUs neurais aprendem algoritmos" (Łukasz Kaiser, Ilya Sutskever, 2015) https://arxiv.org/abs/1511.08228
"Estudo comparativo da CNN e RNN para processamento de linguagem natural" (Wenpeng Yin et al. 2017) https://arxiv.org/abs/1702.01923
fonte
Essa resposta realmente está no conjunto de dados e no caso de uso. É difícil dizer definitivamente o que é melhor.
fonte
Unidade GRU COMPLETA
Unidade LSTM
Como pode ser visto nas equações, os LSTMs têm um portão de atualização separado e um portão de esquecimento. Isso claramente torna os LSTMs mais sofisticados, mas ao mesmo tempo mais complexos. Não há uma maneira simples de decidir qual usar para seu caso de uso específico. Você sempre tem que tentar e errar para testar o desempenho. No entanto, como a GRU é mais simples que a LSTM, as GRUs levarão muito menos tempo para treinar e serão mais eficientes.
Créditos: Andrew Ng
fonte
O GRU é melhor que o LSTM, pois é fácil de modificar e não precisa de unidades de memória; portanto, é mais rápido treinar que o LSTM e fornecer conforme o desempenho.
fonte
Na verdade, a principal diferença acaba sendo mais do que isso: os perceptrons de longo prazo (LSTM) são compostos usando os algoritmos de descida de momento e gradiente. Quando você reconcilia perceptrons LSTM com seus RNNs equivalentes recursivos, cria GRU que é realmente apenas uma unidade recorrente generalizada ou Unidade Recorrente Gradiente (dependendo do contexto) que integra mais estreitamente os algoritmos de descida de momento e gradiente. Se você fosse, faria mais pesquisas sobre o AdamOptimizers.
A GRU é um conceito ultrapassado, a propósito. No entanto, eu posso entender você pesquisando se quiser um conhecimento profundo e moderado sobre o TF.
fonte