Os algoritmos do Word2Vec (Skip Gram e CBOW) tratam cada palavra da mesma forma, porque têm como objetivo calcular a incorporação de palavras . A distinção se torna importante quando é preciso trabalhar com frases ou incorporar documentos : nem todas as palavras representam igualmente o significado de uma frase específica. E aqui são aplicadas diferentes estratégias de ponderação, o TF-IDF é uma delas e, de acordo com alguns documentos, é bastante bem-sucedido. A partir desta pergunta do StackOverflow :
Neste trabalho, os tweets foram modelados usando três tipos de representação de texto. O primeiro é um modelo de saco de palavras ponderado por tf-idf (frequência do termo - frequência inversa do documento) (Seção 2.1.1). O segundo representa uma sentença calculando a média da incorporação de palavras de todas as palavras (na sentença) e o terceiro representa uma sentença calculando a média da incorporação de palavras ponderada de todas as palavras, o peso de uma palavra é dado por tf-idf (Seção 2.1.2 )