Isso é mais como uma pergunta geral da PNL. Qual é a entrada apropriada para treinar uma incorporação de palavras, ou seja, Word2Vec? Todas as frases pertencentes a um artigo devem ser um documento separado em um corpus? Ou cada artigo deve ser um documento no referido corpus? Este é apenas um exemplo usando python e gensim.
Corpus dividido por frase:
SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."],
["second", "sentence", "of", "the", "first", "article."],
["first", "sentence", "of", "the", "second", "article."],
["second", "sentence", "of", "the", "second", "article."]]
Corpus dividido por artigo:
ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.",
"second", "sentence", "of", "the", "first", "article."],
["first", "sentence", "of", "the", "second", "article.",
"second", "sentence", "of", "the", "second", "article."]]
Treinamento do Word2Vec em Python:
from gensim.models import Word2Vec
wikiWord2Vec = Word2Vec(ArticleCorpus)
fonte
Como complemento à resposta de @ NBartley. Para alguém se deparar com esta questão. Eu tentei usar o artigo / frase como entrada para word2vec no Spark2.2, resultado da seguinte forma.
use sentença como entrada:
use o artigo como entrada:
fonte
Para o primeiro, o gensim tem a classe Word2Vec. Para o último, Doc2Vec.
http://rare-technologies.com/doc2vec-tutorial/
fonte