O BERT pode executar a tarefa de previsão da próxima palavra?

Respostas:

12

O BERT não pode ser usado para a previsão da próxima palavra, pelo menos não com o estado atual da pesquisa sobre modelagem de linguagem mascarada.

O BERT é treinado em uma tarefa de modelagem de linguagem mascarada e, portanto, você não pode "prever a próxima palavra". Você só pode mascarar uma palavra e solicitar ao BERT que o preveja, considerando o restante da frase (à esquerda e à direita da palavra mascarada).

Dessa forma, com o BERT, você não pode obter amostras de texto como se fosse um modelo de linguagem autoregressiva normal. No entanto, o BERT pode ser visto como um modelo de linguagem de campo aleatório de Markov e ser usado para geração de texto como tal. Consulte o artigo BERT tem uma boca e deve falar: BERT como um modelo de linguagem de campo aleatório de Markov para obter detalhes. Os autores lançaram o código-fonte e um notebook do Google Colab .

Update: os autores do artigo MRF descobriu sua análise foi falho e BERT não é um MRF, consulte este

ncasas
fonte
Resultados não parecem muito maduros :(
Itachi
11
Por que você não pode simplesmente controlar a máscara para ser a última palavra na sequência? Em seguida, use o BERT para prever com base o token mascarado (próxima palavra). Ainda estou digerindo esses resultados, então não posso orientar como implementar. Ainda assim, parece uma abordagem plausível.
Sledge
Isso foi tentado por um cara nas várias discussões do twitter sobre o BERT depois que ele foi lançado, e ele confirmou que o BERT falhou com a abordagem que o @Sledge está descrevendo. para usar a parte direita da sentença, necessária para realizar a previsão.
Nsas 6/03/19
Entendo, @ncasas obrigado pela explicação.
Sledge