Por que usamos a divergência Kullback-Leibler em vez de entropia cruzada na função objetivo t-SNE?

A divergência de KL é uma maneira natural de medir a diferença entre duas distribuições de probabilidade. A entropia de uma distribuição fornece o número mínimo possível de bits por mensagem que seria necessário (em média) para codificar sem perdas eventos extraídos de . Atingir esse limite exigiria o uso de um código ideal projetado para , que atribui palavras de código mais curtas a eventos de maior probabilidade. pode ser interpretado como o número esperado de bits extras por mensagem necessários para codificar eventos extraídos da distribuição verdadeira $H(p)$ $p$ $p$ $p$ $D_{KL}(p \parallel q)$ $p$ , se estiver usando um código ideal para a distribuição vez de . Tem algumas boas propriedades para comparar distribuições. Por exemplo, se e forem iguais, a divergência KL será 0. $q$ $p$ $p$ $q$

A entropia cruzada pode ser interpretada como o número de bits por mensagem necessário (em média) para codificar eventos extraídos da distribuição verdadeira , se estiver usando um código ideal para a distribuição . Observe a diferença: aumentará à medida que se tornar cada vez mais diferente de $H(p, q)$ $p$ $q$ $D_{KL}(p \parallel q)$ mede o número médio de bits extras por mensagem, enquanto mede o número médio de bits totais por mensagem. É verdade que, para fixo , $H(p, q)$ $p$ $H(p, q)$ $q$ . Mas, se não for mantido fixo, é difícil interpretar como uma medida absoluta da diferença, porque cresce com a entropia de . $p$ $p$ $H(p, q)$ $p$

A divergência de KL e a entropia cruzada estão relacionadas como:

D_{K L} (p ∥ q) = H (p, q) - H (p)

$D_{KL}(p \parallel q) = H(p, q) - H(p)$

Podemos ver a partir dessa expressão que, quando e são iguais, a entropia cruzada não é zero; ao contrário, é igual à entropia de . $p$ $q$ $p$

A entropia cruzada geralmente aparece nas funções de perda no aprendizado de máquina. Em muitas dessas situações, é tratado como a distribuição 'verdadeira' e como o modelo que estamos tentando otimizar. Por exemplo, em problemas de classificação, a perda de entropia cruzada comumente usada (também conhecida como perda de log ), mede a entropia cruzada entre a distribuição empírica dos rótulos (dadas as entradas) e a distribuição prevista pelo classificador. A distribuição empírica para cada ponto de dados simplesmente atribui a probabilidade 1 à classe desse ponto de dados e 0 a todas as outras classes. Nota lateral: a entropia cruzada nesse caso é proporcional à probabilidade logarítmica negativa, portanto, minimizá-la é equivalente a maximizar a probabilidade. $p$ $q$

Observe que (a distribuição empírica neste exemplo) é fixa. Portanto, seria equivalente dizer que estamos minimizando a divergência de KL entre a distribuição empírica e a distribuição prevista. Como podemos ver na expressão acima, os dois estão relacionados pelo termo aditivo $p$ (a entropia da distribuição empírica). Como é fixo, $H(p)$ $p$ $H(p)$ não muda com os parâmetros do modelo e pode ser desconsiderado na função de perda. Ainda podemos querer falar sobre a divergência de KL por razões teóricas / filosóficas, mas, neste caso, são equivalentes da perspectiva de resolver o problema de otimização. Isso pode não ser verdade para outros usos da entropia cruzada e da divergência de KL, onde pode variar. $p$

O t-SNE ajusta uma distribuição no espaço de entrada. Cada ponto de dados é mapeado no espaço de incorporação, onde a distribuição correspondente é adequada. O algoritmo tenta ajustar a incorporação para minimizar . Como acima, é mantido fixo. Portanto, da perspectiva do problema de otimização, minimizar a divergência de KL e minimizar a entropia cruzada são equivalentes. De fato, van der Maaten e Hinton (2008) dizem na seção 2: "Uma medida natural da fidelidade com a qual $p$ $q$ $D_{KL}(p \parallel q)$ $p$ modela $q_{j \mid i}$ $p_{j \mid i}$ é a divergência de Kullback-Leibler (que neste caso é igual à entropia cruzada até uma constante aditiva). "

van der Maaten e Hinton (2008) . Visualização de dados usando t-SNE.

user20160
fonte

Posso de alguma forma respostas 'favoritas'? Quero salvar esta porque é uma explicação muito boa

zwep

Obrigado, feliz por ser útil para você. Você pode marcar uma pergunta como favorita para salvar o tópico inteiro, clicando no ícone de estrela abaixo dos botões de votação. Você pode ver sua lista de favoritos na página da sua conta.

User20160

Por que usamos a divergência Kullback-Leibler em vez de entropia cruzada na função objetivo t-SNE?

Respostas: