Derivada da perda de entropia cruzada no word2vec

Estou tentando trabalhar no caminho do primeiro conjunto de problemas do material do curso de classe on-line stanford cs224d e estou tendo alguns problemas com o problema 3A: Ao usar o modelo skip gram word2vec com a função de previsão softmax e a função de perda de entropia cruzada, deseja calcular os gradientes em relação aos vetores de palavras previstos. Portanto, dada a função softmax:

$\hat{w_i} = \Pr(word_i\mid\hat{r}, w) = \frac{\exp(w_i^T \hat{r})}{\sum_{j}^{|V|}exp(w_j^T\hat{r})}$

e função de entropia cruzada:

$CE(w, \hat{w}) = -\sum\nolimits_{k} w_klog(\hat{w_k})$

precisamos calcular $\frac{\partial{CE}}{\partial{\hat{r}}}$

Minhas etapas são as seguintes:

$CE(w, \hat{w}) = -\sum_{k}^{|V|} w_klog(\frac{\exp(w_k^T \hat{r})}{\sum_{j}^{|V|}exp(w_j^T\hat{r})})$

$= -\sum_{k}^{|V|} w_klog(\exp(w_k^T \hat{r}) - w_klog(\sum_{j}^{|V|}exp(w_j^T\hat{r}))$

agora dado $w_k$ é um vetor quente e i é a classe correta:

$CE(w, \hat{w}) = - w_i^T\hat{r} + log(\sum_{j}^{|V|}exp(w_j^T\hat{r}))$

$\frac{\partial{CE}}{\partial{\hat{r}}} = -w_i + \frac{1}{\sum_{j}^{|V|}exp(w_j^T\hat{r})}\sum_{j}^{|V|}exp(w_j^T\hat{r})w_j$

Isso está correto ou poderia ser mais simplificado? Quero tentar garantir que estou no caminho certo, pois as soluções do conjunto de problemas não são publicadas on-line. Além disso, é importante obter as atribuições escritas corretas para poder executar adequadamente as atribuições de programação.

machine-learning self-study word2vec slushi
fonte

Por favor, adicione a etiqueta auto-estudo para a pergunta

Dawny33

O segundo sinal de menos na identidade do primeiro log deve ser um sinal de mais. Tentei corrigir isso para você, mas as edições precisam ter pelo menos 6 caracteres: \

FatalMojo 22/15/15

Respostas:

\frac{\partial C E}{\partial \hat{r}} = - W_{Eu} + \frac{1 1}{\sum_{j}^{| V |} e x p (W_{j}^{T} \hat{r})} \sum_{j}^{| V |} e x p (W_{j}^{T} \hat{r}) W_{j}

$\frac{\partial{CE}}{\partial{\hat{r}}} = -w_i + \frac{1}{\sum_{j}^{|V|}exp(w_j^T\hat{r})}\sum_{j}^{|V|}exp(w_j^T\hat{r})w_j$ pode ser reescrito como note que as somas são indexadas por j, mas na verdade devem ser 2 variáveis diferentes. Isso seria mais apropriado que se traduz em

\frac{\partial C E}{\partial \hat{r}} = - W_{Eu} + \sum_{j}^{| V |} (\frac{\exp (W_{j}^{⊤} \hat{r})}{\sum_{j}^{| V |} e x p (W_{j}^{T} \hat{r})} \cdot W_{j})

$\frac{\partial{CE}}{\partial{\hat{r}}} = -w_i + \sum_{j}^{|V|} \left( \frac{ \exp(w_j^\top\hat{r}) }{\sum_{j}^{|V|}exp(w_j^T\hat{r})} \cdot w_j \right)$

\frac{\partial C E}{\partial \hat{r}} = - w_{i} + \sum_{x}^{| V |} (\frac{\exp (w_{x}^{⊤} \hat{r})}{\sum_{j}^{| V |} e x p (w_{j}^{T} \hat{r})} \cdot w_{x})

$\frac{\partial{CE}}{\partial{\hat{r}}} = -w_i + \sum_{x}^{|V|} \left( \frac{ \exp(w_x^\top\hat{r}) }{\sum_{j}^{|V|}exp(w_j^T\hat{r})} \cdot w_x \right)$

\frac{\partial C E}{\partial \hat{r}} = - w_{i} + \sum_{x}^{| V |} Pr (w o r d_{x} ∣ \hat{r}, w) \cdot w_{x}

$\frac{\partial{CE}}{\partial{\hat{r}}} = -w_i + \sum_{x}^{|V|} \Pr(word_x\mid\hat{r}, w) \cdot w_x$

FatalMojo
fonte

Relevante, ele

repassa

Por que as somas devem ser indexadas por diferentes variáveis?

Yamaneko

Apenas para evitar confusão. Matematicamente, significa a mesma coisa, mas é uma boa prática alterar o rótulo do índice ao adicionar uma nova soma.

FatalMojo