Depois de treinar vetores de palavras com o word2vec, é melhor normalizá-los antes de usá-los para alguns aplicativos a jusante? Ou seja, quais são os prós / contras de normalizá-los?
natural-language
word2vec
word-embeddings
Franck Dernoncourt
fonte
fonte
Respostas:
Quando os aplicativos a jusante se importam apenas com a direção dos vetores de palavras (por exemplo, eles apenas prestam atenção à semelhança de cosseno de duas palavras), normalize e esqueça o comprimento.
No entanto, se os aplicativos a jusante puderem (ou precisarem) considerar aspectos mais sensíveis, como significância da palavra ou consistência no uso da palavra (veja abaixo), a normalização pode não ser uma boa idéia.
De Levy et al., 2015 (e, na verdade, a maioria da literatura sobre incorporação de palavras):
Também de Wilson e Schakel, 2015 :
Normalizar é equivalente a perder a noção de comprimento. Ou seja, depois de normalizar os vetores de palavras, você esquece o tamanho (norma, módulo) que eles tinham logo após a fase de treinamento.
No entanto, às vezes vale a pena levar em consideração o tamanho original dos vetores de palavras.
Schakel e Wilson, 2015 observaram alguns fatos interessantes sobre o comprimento dos vetores de palavras:
fonte