Devo normalizar os vetores de palavras do word2vec antes de usá-los?

38

Depois de treinar vetores de palavras com o word2vec, é melhor normalizá-los antes de usá-los para alguns aplicativos a jusante? Ou seja, quais são os prós / contras de normalizá-los?

Franck Dernoncourt
fonte
em uma tarefa de similaridade, a normalização melhorou um pouco o desempenho do meu sistema.
keramat
Relacionados: stackoverflow.com/q/36034454/1709587
Mark Amery

Respostas:

30

Quando os aplicativos a jusante se importam apenas com a direção dos vetores de palavras (por exemplo, eles apenas prestam atenção à semelhança de cosseno de duas palavras), normalize e esqueça o comprimento.

No entanto, se os aplicativos a jusante puderem (ou precisarem) considerar aspectos mais sensíveis, como significância da palavra ou consistência no uso da palavra (veja abaixo), a normalização pode não ser uma boa idéia.


De Levy et al., 2015 (e, na verdade, a maioria da literatura sobre incorporação de palavras):

Os vetores são normalizados de acordo com o comprimento da unidade antes de serem utilizados para o cálculo da similaridade, tornando a similaridade do cosseno e o equivalente ao produto escalar.

Também de Wilson e Schakel, 2015 :

A maioria das aplicações de incorporação de palavras explora não os vetores de palavras em si, mas as relações entre eles para resolver, por exemplo, tarefas de similaridade e de relação de palavras. Para essas tarefas, verificou-se que o uso de vetores de palavras normalizados melhora o desempenho. Portanto, o comprimento do vetor de palavras é geralmente ignorado.

Normalizar é equivalente a perder a noção de comprimento. Ou seja, depois de normalizar os vetores de palavras, você esquece o tamanho (norma, módulo) que eles tinham logo após a fase de treinamento.

No entanto, às vezes vale a pena levar em consideração o tamanho original dos vetores de palavras.

Schakel e Wilson, 2015 observaram alguns fatos interessantes sobre o comprimento dos vetores de palavras:

Uma palavra usada consistentemente em um contexto semelhante será representada por um vetor mais longo que uma palavra da mesma frequência usada em contextos diferentes.

Não apenas a direção, mas também o comprimento dos vetores de palavras carregam informações importantes.

O comprimento do vetor de palavras fornece, em combinação com a frequência do termo, uma medida útil do significado da palavra.

turdus-merula
fonte
Podemos elaborar "verificou-se que o uso de vetores de palavras normalizados melhora o desempenho"? A normalização não envolve computação adicional?
neurites
4
@neurite, nesse contexto, um melhor desempenho refere-se a uma melhor pontuação nas tarefas de avaliação.
Turdus merula-