Há um iter
parâmetro na gensim
implementação do Word2Vec
classe gensim.models.word2vec.Word2Vec (sentenças = Nenhuma, tamanho = 100, alfa = 0,025, janela = 5, min_count = 5, max_vocab_size = None, amostra = 0, semente = 1, trabalhadores = 1, trabalhadores = 1, min_alpha = 0,0001, sg = 1, hs = 1, negativo = 0, cbow_mean = 0, hashfxn =, iter = 1 , null_word = 0, trim_rule = None, classificado_vocab = 1)
que especifica o número de épocas, ou seja:
iter = número de iterações (épocas) sobre o corpus.
Alguém sabe se isso ajuda a melhorar o modelo sobre o corpus?
Existe alguma razão para que o valor iter
esteja definido como 1 por padrão? Não há muito efeito em aumentar o não. de épocas?
Existe alguma avaliação científica / empírica de como definir o não. de épocas?
Diferentemente da tarefa de classificação / regressão, o método de pesquisa em grade não funcionaria realmente, pois os vetores são gerados de maneira não supervisionada e a função objetivo é simplesmente por softmax hierárquico ou amostragem negativa.
Existe um mecanismo de parada precoce para reduzir o não. de épocas em que os vetores convergem? E o softmax hierárquico ou o objetivo de amostragem negativo podem convergir?
fonte