Estou tentando incorporar cerca de 60 milhões de frases em um espaço vetorial e calcular a semelhança de cosseno entre elas. Eu tenho usado o sklearn's CountVectorizercom uma função de tokenizer personalizada que produz unigramas e bigrams. Acontece que, para obter representações significativas,...