O que é temperatura no LSTM (e redes neurais em geral)?

25

Um dos hiperparâmetros para redes LSTM é a temperatura. O que é isso?

Justin Shenk
fonte

Respostas:

28

A temperatura é um hiperparâmetro dos LSTMs (e redes neurais em geral) usado para controlar a aleatoriedade das previsões, escalando os logits antes de aplicar o softmax. Por exemplo, na implementação de LSTMs Magenta do TensorFlow, a temperatura representa o quanto dividir os logits antes de calcular o softmax.

Quando a temperatura é 1, calculamos o softmax diretamente nos logits (a saída não escalonada das camadas anteriores) e, usando uma temperatura de 0,6, o modelo calcula o softmax em , resultando em um valor maior. A realização de softmax em valores maiores torna o LSTM mais confiante (menos entrada é necessária para ativar a camada de saída), mas também mais conservador em suas amostras (é menos provável que seja amostrado de candidatos improváveis). Usar uma temperatura mais alta produz uma distribuição de probabilidade mais suave entre as classes e torna o RNN mais "facilmente excitado" pelas amostras, resultando em mais diversidade e também mais erros .euogEuts0,6

As redes neurais produzem probabilidades de classe com o vetor logit onde executando a função softmax para produzir o vetor de probabilidade comparando com os outros logits.zz=(z1,...,zn)q=(q1,...,qn)zEu

(1)qEu=exp(zEu/T)jexp(zj/T)

onde é o parâmetro de temperatura, normalmente definido como 1.T

A função softmax normaliza os candidatos em cada iteração da rede com base em seus valores exponenciais, garantindo que as saídas da rede estejam entre zero e uma a cada passo do tempo.

A temperatura, portanto, aumenta a sensibilidade a candidatos de baixa probabilidade. Nos LSTMs, o candidato, ou amostra, pode ser uma letra, uma palavra ou nota musical, por exemplo:

Para altas temperaturas ( ), todas as [amostras] têm quase a mesma probabilidade e, quanto menor a temperatura, mais recompensas esperadas afetam a probabilidade. Para uma temperatura baixa ( ), a probabilidade da [amostra] com a maior recompensa esperada tende a 1.ττ0 0+

- do artigo da Wikipedia sobre a função softmax

Referência

Hinton, Geoffrey, Oriol Vinyals e Jeff Dean. "Destilando o conhecimento em uma rede neural." pré-impressão do arXiv arXiv: 1503.02531 (2015). arXiv

Justin Shenk
fonte
3
É uma alusão à distribuição de Boltzmann (ou distribuição de Gibbs) - uma distribuição de probabilidade usada na mecânica estatística.
Mc2