Eu sou muito novo no aprendizado profundo e estou particularmente interessado em saber o que são LSTM e BiLSTM e quando usá-los (principais áreas de aplicação). Por que o LSTM e o BILSTM são mais populares que o RNN?
Podemos usar essas arquiteturas de aprendizado profundo em problemas não supervisionados?
Respostas:
RNN
arquiteturas gostamLSTM
eBiLSTM
são usadas em ocasiões em que o problema de aprendizado é seqüencial; por exemplo, você tem um vídeo e deseja saber o que é tudo isso ou deseja que um agente leia uma linha de documento para você, que é uma imagem de texto e não no formato de texto. É altamente recomendável que você dê uma olhada aqui .LSTMs
e suas variantes bidirecionais são populares porque tentaram aprender como e quando esquecer e quando não usar portas em sua arquitetura. EmRNN
arquiteturas anteriores , o desaparecimento de gradientes era um grande problema e fazia com que essas redes não aprendessem muito.Usando Bidirecional
LSTMs
, você alimenta o algoritmo de aprendizado com os dados originais uma vez do começo ao fim e uma vez do fim ao começo. Existem debates aqui, mas geralmente ele aprende mais rápido que a abordagem unidirecional, embora dependa da tarefa.Sim, você pode usá-los também em aprendizado não supervisionado, dependendo da sua tarefa. dê uma olhada aqui e aqui .
fonte
Os humanos não começam a pensar do zero a cada segundo. Ao ler este ensaio, você entende cada palavra com base na sua compreensão das palavras anteriores. Você não joga tudo fora e começa a pensar do zero novamente. Seus pensamentos têm persistência.
As redes neurais tradicionais não podem fazer isso, e isso parece uma grande falha. Por exemplo, imagine que você queira classificar que tipo de evento está acontecendo em todos os momentos do filme. Não está claro como uma rede neural tradicional poderia usar seu raciocínio sobre eventos anteriores do filme para informar os posteriores.
Redes neurais recorrentes abordam esse problema. São redes com loops, permitindo que as informações persistam.
Para uma leitura mais aprofundada, visite o Blog do Cohen
fonte
Em comparação com o LSTM,
BLSTM
ouBiLSTM
possui duas redes, umapast
informação de acesso naforward
direção e outro acessofuture
nareverse
direção. WIKIUma nova classe
Bidirectional
é adicionada conforme o documento oficial aqui :Exemplo completo usando dados IMDB será assim
fonte