Por que o softmax hierárquico é melhor para palavras pouco frequentes, enquanto a amostragem negativa é melhor para palavras frequentes?

Respostas:

10

Não sou especialista em word2vec, mas ao ler Rong, X. (2014). Aprendizado de parâmetros do word2vec Explicado e, a partir de minha própria experiência com NN, simplificaria o raciocínio para isso:

  • O softmax hierárquico proporciona uma melhoria na eficiência do treinamento, uma vez que o vetor de saída é determinado por uma passagem em árvore das camadas da rede; uma determinada amostra de treinamento precisa apenas avaliar / atualizarO(euog(N)) unidades de rede, não O(N). Isso basicamente expande os pesos para suportar um vocabulário amplo - uma determinada palavra está relacionada a menos neurônios e vice-versa.
  • A amostragem negativa é uma maneira de amostrar os dados de treinamento, semelhante à descida do gradiente estocástico, mas a chave é procurar exemplos de treinamento negativos. Intuitivamente, ele treina com base em locais de amostragem que poderia esperar uma palavra, mas não encontrou uma, que é mais rápida do que treinar um corpus inteiro a cada iteração e faz sentido para palavras comuns.

Os dois métodos não parecem ser exclusivos, teoricamente, mas, de qualquer maneira, parece que é por isso que eles seriam melhores para palavras frequentes e pouco frequentes.

Andrew Charneski
fonte
1

Meu entendimento é que isso se deve à codificação de Huffman usada na construção da hierarquia de categorias.

O softmax hierárquico usa uma árvore de nós sigmóides em vez de um grande softmax, a codificação Huffman garante que a distribuição dos pontos de dados pertencentes a cada lado de qualquer nó sigmóide seja equilibrada. Portanto, ajuda a eliminar a preferência por categorias frequentes em comparação com o uso de uma grande softmax e uma amostragem negativa.

dontloo
fonte
0

O softmax hierárquico constrói uma árvore sobre todo o vocabulário e os nós das folhas que representam palavras raras inevitavelmente herdarão as representações vetoriais de seus ancestrais na árvore, que podem ser afetadas por outras palavras frequentes no corpus. Isso beneficiará o treinamento incremental para o novo corpus.

A amostragem negativa é desenvolvida com base na estimativa contrastiva do ruído e coleta aleatoriamente as palavras que não estão no contexto para distinguir os dados observados do ruído aleatório gerado artificialmente.

Amey Yadav
fonte