Estou lendo este artigo "Sequência para aprendizado de sequência com redes neurais" http://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf
Em "2. O Modelo", diz:
O LSTM calcula essa probabilidade condicional obtendo primeiro a representação dimensional fixa v da sequência de entrada (x1,..., XT) dada pelo último estado oculto do LSTM e depois calculando a probabilidade de y1,. . . , yT 'com uma formulação padrão LSTM-LM cujo estado oculto inicial é definido como a representação v de x1,. . . , xT:
Eu sei o que é um LSTM, mas o que é um LSTM-LM? Eu tentei pesquisar no Google, mas não consigo encontrar bons leads.
machine-learning
neural-network
nlp
rnn
machine-translation
Taevanbat Mongol
fonte
fonte
Respostas:
A definição de um modelo de linguagem (LM) é uma distribuição de probabilidade em seqüências de palavras.
A ilustração simples de um ML é prever a próxima palavra, dada a (s) palavra (s) anterior (es).
Por exemplo, se eu tiver um modelo de idioma e algumas palavras iniciais:
My
name
aparece depoisMy
.My name
, meu modelo prevê que há uma alta probabilidade queis
aparece depoisMy name
.My
->My name
->My name is
->My name is Tom
e assim por diante.Você pode pensar no preenchimento automático no teclado do smartphone. De fato, o LM é o coração dos autocompletions.
Portanto, o LSTM-LM está simplesmente usando uma LSTM (e a função softmax) para prever a próxima palavra, com as palavras anteriores.
A propósito, o Language Model não se limita ao LSTM, outros RNNs (GRU) ou outros modelos estruturados. De fato, você também pode usar redes de feedforward com janela de contexto / deslizante / rolante para prever a próxima palavra, considerando suas palavras iniciais.
fonte
Nesse contexto, acho que significa que você pega a representação de saída e aprende uma camada softmax adicional que corresponde aos tokens no seu modelo de idioma (neste caso, letras).
fonte