Como os gradientes se propagam em uma rede neural recorrente desenrolada?

Estou tentando entender como o rnn pode ser usado para prever sequências, trabalhando com um exemplo simples. Aqui está minha rede simples, consistindo em uma entrada, um neurônio oculto e uma saída:

insira a descrição da imagem aqui

O neurônio oculto é a função sigmóide e a saída é considerada uma saída linear simples. Então, eu acho que as obras de rede da seguinte forma: se o começa unidade escondida no estado s, e estamos processando um ponto de dados que é uma sequência de comprimento , , então: $3$ $(x_1, x_2, x_3)$

No momento 1, o valor previsto, , é $p^1$

p^{1} = u \times σ (w s + v x^{1})

$p^1 = u \times \sigma(ws+vx^1)$

No momento 2, temos

p^{2} = u \times σ (w \times σ (w s + v x^{1}) + v x^{2})

$p^2 = u \times \sigma\left(w \times \sigma(ws+vx^1)+vx^2\right)$

No momento 3, temos

p^{3} = u \times σ (w \times σ (w \times σ (w s + v x^{1}) + v x^{2}) + v x^{3})

$p^3 = u \times \sigma\left(w \times \sigma(w \times\sigma(ws+vx^1)+vx^2)+vx^3\right)$

Por enquanto, tudo bem?

O rnn "desenrolado" é assim:

insira a descrição da imagem aqui

Se usarmos a soma do termo do erro quadrado para a função objetivo, como ela será definida? Em toda a sequência? Nesse caso, teríamos algo como ? $E=(p^1-x^1)^2+(p^2-x^2)^2+(p^3-x^3)^2$

Os pesos são atualizados somente depois que toda a sequência foi analisada (neste caso, a sequência de 3 pontos)?

Quanto ao gradiente em relação aos pesos, precisamos calcular , tentarei fazer isso simplesmente examinando as 3 equações para acima, se tudo estiver correto. Além de fazer dessa maneira, isso não me parece propagação traseira de baunilha, porque os mesmos parâmetros aparecem em diferentes camadas da rede. Como nos ajustamos para isso? $dE/dw, dE/dv, dE/du$ $p^i$

Se alguém puder me ajudar nesse exemplo de brinquedo, eu ficaria muito agradecido.

machine-learning neural-networks deep-learning gradient-descent Fequish
fonte

Eu acho que algo errado com a função de erro, você provavelmente obtém como termo do segundo elemento e deve compará-lo provavelmente com , no caso perfeito eles devem ser iguais. Na sua função de erro, basta comparar a entrada e a saída da rede.

p^{1}

$p^1$

x^{2}

$x^2$

itdxer

Eu pensei que poderia ser o caso. Mas então como é definido o erro para o último elemento previsto, ?

p^{3}

$p^3$

Fequish

Respostas:

Eu acho que você precisa de valores-alvo. Portanto, para a sequência , você precisa de destinos correspondentes . Como você deseja prever o próximo termo da sequência de entrada original, você precisará: $(x_1, x_2, x_3)$ $(t_1, t_2, t_3)$

t_{1} = x_{2}, t_{2} = x_{3}, t_{3} = x_{4}

$t_1 = x_2,\ t_2 = x_3,\ t_3 = x_4$

Você precisaria definir , portanto, se você tivesse uma sequência de entrada de comprimento para treinar o RNN, seria capaz de usar apenas os primeiros termos como valores de entrada e os últimos termos como destino valores. $x_4$ $N$ $N-1$ $N-1$

Se usarmos a soma do termo do erro quadrado para a função objetivo, como ela será definida?

Tanto quanto sei, você está certo - o erro é a soma de toda a sequência. Isso ocorre porque os pesos , e são os mesmos na RNN desdobrada. $u$ $v$ $w$

Então,

E = \sum_{t} E^{t} = \sum_{t} (t^{t} - p^{t})^{2}

$E = \sum\limits_t E^t = \sum\limits_t (t^t - p^t)^2$

Os pesos são atualizados somente depois que toda a sequência foi analisada (neste caso, a sequência de 3 pontos)?

Sim, se usando a propagação de volta ao longo do tempo, acredito que sim.

Quanto aos diferenciais, você não desejará expandir toda a expressão para e diferenciá-la quando se trata de RNNs maiores. Portanto, algumas notações podem torná-lo mais limpo: $E$

Seja denota a entrada para o neurônio oculto no tempo (ie ) $z^t$ $t$ $z^1 = ws + vx^1$
Seja denotar a saída do neurônio oculto no tempo (ie $y^t$ $t$ $y^1 = \sigma(ws + vx^1))$
Seja $y^0 = s$
Seja $\delta^t = \frac{\partial E}{\partial z^t}$

Então, os derivados são:

\begin{aligned} \frac{\partial E}{\partial u} & = y^{t} \\ \frac{\partial E}{\partial v} & = \sum_{t} δ^{t} x^{t} \\ \frac{\partial E}{\partial w} & = \sum_{t} δ^{t} y^{t - 1} \end{aligned}

$\begin{align}\frac{\partial E}{\partial u} &= y^t \\\\ \frac{\partial E}{\partial v} &= \sum\limits_t\delta^tx^t \\\\ \frac{\partial E}{\partial w} &= \sum\limits_t\delta^ty^{t-1} \end{align}$

Onde para uma sequência de comprimento e: $t \in [1,\ T]$ $T$

δ^{t} = σ^{'} (z^{t}) (u + δ^{t + 1} w)

$\begin{equation} \delta^t = \sigma'(z^t)(u + \delta^{t+1}w) \end{equation}$

Esta relação recorrente vem percebendo que o escondido atividade não só os efeitos do erro no saída, , mas também efeitos no resto do erro mais abaixo na RNN, : $t^{th}$ $t^{th}$ $E^t$ $E - E^t$

\begin{aligned} \frac{\partial E}{\partial z^{t}} & = \frac{\partial E^{t}}{\partial y^{t}} \frac{\partial y^{t}}{\partial z^{t}} + \frac{\partial (E - E^{t})}{\partial z^{t + 1}} \frac{\partial z^{t + 1}}{\partial y^{t}} \frac{\partial y^{t}}{\partial z^{t}} \\ \frac{\partial E}{\partial z^{t}} & = \frac{\partial y^{t}}{\partial z^{t}} (\frac{\partial E^{t}}{\partial y^{t}} + \frac{\partial (E - E^{t})}{\partial z^{t + 1}} \frac{\partial z^{t + 1}}{\partial y^{t}}) \\ \frac{\partial E}{\partial z^{t}} & = σ^{'} (z^{t}) (u + \frac{\partial (E - E^{t})}{\partial z^{t + 1}} w) \\ δ^{t} = \frac{\partial E}{\partial z^{t}} & = σ^{'} (z^{t}) (u + δ^{t + 1} w) \end{aligned}

$\begin{align} \frac{\partial E}{\partial z^t} &= \frac{\partial E^t}{\partial y^t}\frac{\partial y^t}{\partial z^t} + \frac{\partial (E - E^t)}{\partial z^{t+1}}\frac{\partial z^{t+1}}{\partial y^t}\frac{\partial y^t}{\partial z^t} \\\\ \frac{\partial E}{\partial z^t} &= \frac{\partial y^t}{\partial z^t}\left(\frac{\partial E^t}{\partial y^t} + \frac{\partial (E - E^t)}{\partial z^{t+1}}\frac{\partial z^{t+1}}{\partial y^t}\right) \\\\ \frac{\partial E}{\partial z^t} &= \sigma'(z^t)\left(u + \frac{\partial (E - E^t)}{\partial z^{t+1}}w\right) \\\\ \delta^t = \frac{\partial E}{\partial z^t} &= \sigma'(z^t)(u + \delta^{t+1}w) \\\\ \end{align}$

Além de fazer dessa maneira, isso não me parece propagação traseira de baunilha, porque os mesmos parâmetros aparecem em diferentes camadas da rede. Como nos ajustamos para isso?

Esse método é chamado de propagação de retorno ao longo do tempo (BPTT) e é semelhante à propagação de retorno no sentido em que utiliza a aplicação repetida da regra da cadeia.

Um exemplo trabalhado mais detalhado, porém complicado, para uma RNN pode ser encontrado no capítulo 3.2 do 'Rotulagem de sequência supervisionada com redes neurais recorrentes' de Alex Graves - leitura realmente interessante!

dok
fonte

Erro que você descreveu acima (após a modificação que escrevi no comentário abaixo da pergunta), você pode usar apenas como um erro de previsão total, mas não pode usá-lo no processo de aprendizagem. Em cada iteração, você coloca um valor de entrada na rede e obtém uma saída. Ao obter a saída, você deve verificar o resultado da sua rede e propagar o erro para todos os pesos. Após a atualização, você colocará o próximo valor em sequência e fará uma previsão para esse valor, além de propagar o erro e assim por diante.

itdxer
fonte