O título desta pergunta é uma pergunta separada para o seu texto, portanto, responderei ambas separadamente (considerando que uma leva à outra).
- Como deduzir frases invisíveis:
# ... trained model stored in var model
list_of_words = ["this", "is", "a", "new","unseen", "sentence"]
inferred_embedding = model.infer_vector(list_of_words)
Como é que isso funciona ? Conforme o artigo original ( https://cs.stanford.edu/~quocle/paragraph_vector.pdf ), temos duas matrizes de peso inicializadas aleatoriamente que é a mesma matriz do Word2Vec na qual cada coluna ou linha mapeia para um vetor de palavras e D ∈ R M × R, que é a matriz do documento em que cada coluna ou linha é mapeada para uma frase / documento. Durante o treinamento, um classificador softmax de tamanho de janela fixa k se move (de uma maneira que se mova como uma janela), minimizando a seguinte probabilidade de log (entropia cruzada de várias classes):W∈ RN× PD ∈ RM× Rk
1M∑i = 1M1| DEu|∑t = k| Di - 1| -kl o g( p ( wEut| WEut - k, . . . , wEut + k, DEu) ))
Onde corresponde ao vector representando o i t h frase, | D i | o número de palavras que documento e w i t é o t t hDEuEut h| DEu|WEuttt h palavra no documento. Tudo o que a propagação de retorno lembra é o documento no qual estamos movendo nosso softmax de janela e atualiza apenas essa linha na matriz D, juntamente com as palavras nessa janela.Eut hD
WD
- Podemos inferir que uma frase possivelmente invisível corresponde exatamente a uma frase no conjunto de treinamento?
D
Mesmo consertar a semente aleatória pode não funcionar, existem muitas outras variáveis que podem afetar sua convergência. Consulte a primeira resposta em https://github.com/RaRe-Technologies/gensim/issues/374 .
Em qualquer caso, você pode encontrar o rótulo mais semelhante em seu conjunto de dados a uma frase inferida apenas iterando sobre seu conjunto de treinamento e comparando a semelhança com o vetor inferido. Mas por que você deseja fazer uma correspondência exata com algo no conjunto de treinamento? é isso que expressões regulares são para os propósitos dessas incorporações de documentos, para tarefas de aprendizado supervisionadas ou não supervisionadas (ou seja, classificação e agrupamento).