Estou expandindo meu conhecimento do pacote Keras e tenho trabalhado com alguns dos modelos disponíveis. Eu tenho um problema de classificação binária da PNL que estou tentando resolver e tenho aplicado modelos diferentes.
Depois de trabalhar com alguns resultados e ler mais e mais sobre LSTM, parece que essa abordagem é muito superior a qualquer outra coisa que eu tentei (em vários conjuntos de dados). Eu fico pensando comigo mesmo: "Por que / quando você não usaria o LSTM?". O uso dos portões adicionais, inerentes ao LSTM, faz todo o sentido para mim depois de ter alguns modelos que sofrem com gradientes de fuga.
Então, qual é o problema com o LSTM? Onde eles não se saem tão bem? Eu sei que não existe um algoritmo "tamanho único", portanto, deve haver uma desvantagem no LSTM.
fonte
Respostas:
Você está certo de que os LSTMs funcionam muito bem em alguns problemas, mas algumas das desvantagens são:
Estes são comparados a um modelo mais simples, como uma rede conv convencional 1D, por exemplo.
Os três primeiros itens são porque os LSTMs têm mais parâmetros.
fonte