Estou tendo problemas para entender o modelo de ignorar o algoritmo Word2Vec.
Em palavras-chave contínuas, é fácil ver como as palavras de contexto podem "se encaixar" na Rede Neural, uma vez que você as calcula a média depois de multiplicar cada uma das representações de codificação quentes com a matriz de entrada W.
No entanto, no caso de pular grama, você só obtém o vetor da palavra de entrada multiplicando a codificação one-hot com a matriz de entrada e, em seguida, deve obter representações de vetores C (= tamanho da janela) para as palavras de contexto multiplicando o representação do vetor de entrada com a matriz de saída W '.
O que quero dizer é que, tendo um vocabulário de tamanho e codificações de tamanho , matriz de entrada e como matriz de saída. Dada a palavra com a codificação one-hot com as palavras de contexto e (com repetições one-hot e ), se você multiplicar pela matriz de entrada obtém , agora como você gera vetores de pontuação partir disso?N W ∈ R V × N W ' ∈ R N × V W i X i w j w h x j x h x i W h : = x t i W = W ( i , ⋅ ) ∈ R N C
fonte
Nos dois modelos, a pontuação da saída depende da função de pontuação que você usa. Pode haver duas funções de pontuação softmax ou amostragem negativa. Então você usa uma função de pontuação softmax. Você obterá um tamanho de função de pontuação de N * D. Aqui D é a dimensão de um vetor de palavras. N é o número de exemplos. Cada palavra é como uma classe na arquitetura de redes neurais.
fonte
No modelo de skip-gram, uma palavra codificada de uma quente é alimentada a uma rede neural superficial de duas camadas. Como a entrada é codificada de um modo quente, a camada oculta contém apenas uma linha da matriz de pesos ocultos de entrada (digamos linha porque a linha do vetor de entrada é uma). k t hkth kth
As pontuações para cada palavra são calculadas pela seguinte equação.
onde h é um vetor na camada oculta e é a matriz de peso de saída oculta. Após o cálculo das distribuições multinomiais de são calculados onde é o tamanho das janelas. As distribuições são calculadas pela seguinte equação. u C CW′ u C C
fonte