Então, qual é o problema com o LSTM?

12

Estou expandindo meu conhecimento do pacote Keras e tenho trabalhado com alguns dos modelos disponíveis. Eu tenho um problema de classificação binária da PNL que estou tentando resolver e tenho aplicado modelos diferentes.

Depois de trabalhar com alguns resultados e ler mais e mais sobre LSTM, parece que essa abordagem é muito superior a qualquer outra coisa que eu tentei (em vários conjuntos de dados). Eu fico pensando comigo mesmo: "Por que / quando você não usaria o LSTM?". O uso dos portões adicionais, inerentes ao LSTM, faz todo o sentido para mim depois de ter alguns modelos que sofrem com gradientes de fuga.

Então, qual é o problema com o LSTM? Onde eles não se saem tão bem? Eu sei que não existe um algoritmo "tamanho único", portanto, deve haver uma desvantagem no LSTM.

I_Play_With_Data
fonte
Experimente o GRU, eles são como LSTM, mas requerem menos memória e treinam mais rapidamente.
Vivek Khetan

Respostas:

11

Você está certo de que os LSTMs funcionam muito bem em alguns problemas, mas algumas das desvantagens são:

  • LSTMs levam mais tempo para treinar
  • LSTMs requerem mais memória para treinar
  • LSTMs são fáceis de ajustar demais
  • A desistência é muito mais difícil de implementar nos LSTMs
  • LSTMs são sensíveis a diferentes inicializações aleatórias de peso

Estes são comparados a um modelo mais simples, como uma rede conv convencional 1D, por exemplo.

Os três primeiros itens são porque os LSTMs têm mais parâmetros.

Imran
fonte
3
Concordo, e acho que o excesso de ajuste (também conhecido como má generalização) é talvez o maior risco. Verifique se você possui uma boa estratégia para validar o modelo.
tom