Como o BERT é bidirecional (usa transformador bidirecional), é possível usá-lo para a tarefa de previsão da próxima palavra? Se sim, o que precisa ser ajustado?
neural-network
deep-learning
attention-mechanism
transformer
bert
不是 phd 的 phd
fonte
fonte
Respostas:
O BERT não pode ser usado para a previsão da próxima palavra, pelo menos não com o estado atual da pesquisa sobre modelagem de linguagem mascarada.
O BERT é treinado em uma tarefa de modelagem de linguagem mascarada e, portanto, você não pode "prever a próxima palavra". Você só pode mascarar uma palavra e solicitar ao BERT que o preveja, considerando o restante da frase (à esquerda e à direita da palavra mascarada).
Dessa forma, com o BERT, você não pode obter amostras de texto como se fosse um modelo de linguagem autoregressiva normal. No entanto, o BERT pode ser visto como um modelo de linguagem de campo aleatório de Markov e ser usado para geração de texto como tal. Consulte o artigo BERT tem uma boca e deve falar: BERT como um modelo de linguagem de campo aleatório de Markov para obter detalhes. Os autores lançaram o código-fonte e um notebook do Google Colab .
Update: os autores do artigo MRF descobriu sua análise foi falho e BERT não é um MRF, consulte este
fonte