Eu estou querendo saber como rotular (marcar) frases / parágrafos / documentos com doc2vec no gensim - do ponto de vista prático.
Você precisa ter cada frase / parágrafo / documento com seu próprio rótulo exclusivo (por exemplo, "Sent_123")? Isso parece útil se você quiser dizer "quais palavras ou frases são mais semelhantes a uma única frase específica chamada" Sent_123 ".
Você pode repetir os rótulos com base no conteúdo? Por exemplo, se cada frase / parágrafo / documento é sobre um determinado item do produto (e há várias frases / parágrafos / documentos para um determinado item do produto), você pode rotular as frases com base no item e calcular a semelhança entre uma palavra ou uma frase e esse rótulo (que eu acho que seria como uma média de todas as frases relacionadas ao item do produto)?
dm=0, dbow_words=1
.doc2vec
O modelo obtém seu algoritmoword2vec
.Em
word2vec
não há necessidade de rotular as palavras, porque cada palavra tem seu próprio significado semântico no vocabulário. Porém, no caso dedoc2vec
, é necessário especificar que quantas palavras ou frases transmitem um significado semântico, para que o algoritmo possa identificá-lo como uma única entidade. Por esse motivo, estamos especificandolabels
outags
sentenciando ou parágrafo, dependendo do nível de significado semântico transmitido.Se especificarmos um rótulo único para várias frases em um parágrafo, significa que todas as frases no parágrafo são necessárias para transmitir o significado. Por outro lado, se especificarmos rótulos variáveis para todas as sentenças de um parágrafo, significa que cada um transmite um significado semântico e eles podem ou não ter semelhança entre eles.
Em termos simples,
label
significa significado semântico de alguma coisa.fonte
If we specify a single label to multiple sentences in a paragraph, it means that all the sentences in the paragraph are required to convey the meaning.
Não tenho certeza se estou entendendo isso corretamente. A partir dos algoritmos POV, todas as frases com a mesma tag são necessárias para a definição semântica ou todas as frases com a mesma tag descrevem a mesma coisa? No primeiro caso, nenhuma sentença é auto-suficiente por si só; no segundo caso, uma sentença é auto-suficiente.