O que é uma formulação LSTM-LM?

8

Estou lendo este artigo "Sequência para aprendizado de sequência com redes neurais" http://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf

Em "2. O Modelo", diz:

O LSTM calcula essa probabilidade condicional obtendo primeiro a representação dimensional fixa v da sequência de entrada (x1,..., XT) dada pelo último estado oculto do LSTM e depois calculando a probabilidade de y1,. . . , yT 'com uma formulação padrão LSTM-LM cujo estado oculto inicial é definido como a representação v de x1,. . . , xT:

Eu sei o que é um LSTM, mas o que é um LSTM-LM? Eu tentei pesquisar no Google, mas não consigo encontrar bons leads.

Taevanbat Mongol
fonte
Mas essa frase ainda é intrigante para mim. se eu colocá-lo na equação, se make ! [ ] ( i.stack.imgur.com/0Lv8L.png ) ! [(https://i.stack.imgur.com/et5Sf.png) com c o último estado oculto de o codificador. então o primeiro estado oculto representa a informação fornecida pelo codificador, mas o próximo representa a distribuição de probabilidade dos elementos da sequência alvo: algo de natureza radicalmente diferente. Também a inicialização estado estado celular não é dado e a figura 1 Vamos acreditar que o LSTM provid
Charles Englebert

Respostas:

10

A definição de um modelo de linguagem (LM) é uma distribuição de probabilidade em seqüências de palavras.

A ilustração simples de um ML é prever a próxima palavra, dada a (s) palavra (s) anterior (es).

Por exemplo, se eu tiver um modelo de idioma e algumas palavras iniciais:

  • Defino minha palavra inicial como My
  • Meu modelo prevê que existe uma alta probabilidade que nameaparece depois My.
  • Ao definir as palavras iniciais para My name, meu modelo prevê que há uma alta probabilidade que isaparece depois My name.
  • Então é assim: My-> My name-> My name is-> My name is Tome assim por diante.

Você pode pensar no preenchimento automático no teclado do smartphone. De fato, o LM é o coração dos autocompletions.

Portanto, o LSTM-LM está simplesmente usando uma LSTM (e a função softmax) para prever a próxima palavra, com as palavras anteriores.

A propósito, o Language Model não se limita ao LSTM, outros RNNs (GRU) ou outros modelos estruturados. De fato, você também pode usar redes de feedforward com janela de contexto / deslizante / rolante para prever a próxima palavra, considerando suas palavras iniciais.

rilut
fonte
Isso muda a formulação do próprio LSTM de alguma forma?
Taevanbat Mongol 04/08/16
Ou isso muda a maneira como os LSTMs são vinculados?
Taevanbat Mongol 04/08/16
1
IMHO, talvez signifique um LSTM ajustado para LM (Language Modeling). Estou lendo o mesmo papel e que é o meu entendimento
Ali
@TaevanbatMongol não, não está mudando a formulação do LSTM. Você só precisa de uma função softmax (ou algo) para gerar a probabilidade de palavras a partir da saída LSTM
rilut
Probabilidade de meios palavras, se você somar a probabilidade / pontuação da saída de uma iteração, será igual a 1
rilut
1

Nesse contexto, acho que significa que você pega a representação de saída e aprende uma camada softmax adicional que corresponde aos tokens no seu modelo de idioma (neste caso, letras).

Bhav Ashok
fonte