Por que o erro quadrático médio é a entropia cruzada entre a distribuição empírica e um modelo gaussiano?

28

Em 5.5, Deep Learning (de Ian Goodfellow, Yoshua Bengio e Aaron Courville), afirma que

Qualquer perda que consiste em uma probabilidade logarítmica negativa é uma entropia cruzada entre a distribuição empírica definida pelo conjunto de treinamento e a distribuição de probabilidade definida pelo modelo. Por exemplo, erro quadrático médio é a entropia cruzada entre a distribuição empírica e um modelo gaussiano.

Não consigo entender por que eles são equivalentes e os autores não expandem o assunto.

machine-learning normal-distribution cross-entropy Mufei Li
fonte

32

Seja os dados . Escreva para a distribuição empírica. Por definição, para qualquer função , $\mathbf{x}=(x_1, \ldots, x_n)$ $F(\mathbf{x})$ $f$

E_{F (x)} [f (X)] = \frac{1}{n} \sum_{i = 1}^{n} f (x_{i}) .

$\mathbb{E}_{F(\mathbf{x})}[f(X)] = \frac{1}{n}\sum_{i=1}^n f(x_i).$

Deixe o modelo tem densidade , onde é definido sobre o suporte do modelo. A entropia cruzada de e é definida como $M$ $e^{f(x)}$ $f$ $F(\mathbf{x})$ $M$

\begin{matrix} (1) & H (F (x), M) = - E_{F (x)} [\log (e^{f (X)}] = - E_{F (x)} [f (X)] = - \frac{1}{n} \sum_{i = 1}^{n} f (x_{i}) . \end{matrix}

$H(F(\mathbf{x}), M) = -\mathbb{E}_{F(\mathbf{x})}[\log(e^{f(X)}] = -\mathbb{E}_{F(\mathbf{x})}[f(X)] =-\frac{1}{n}\sum_{i=1}^n f(x_i).\tag{1}$

Supondo que é uma amostra aleatória simples, sua probabilidade de log negativa é $x$

\begin{matrix} (2) & - \log (L (x)) = - \log \prod_{i = 1}^{n} e^{f (x_{i})} = - \sum_{i = 1}^{n} f (x_{i}) \end{matrix}

$-\log(L(\mathbf{x}))=-\log \prod_{i=1}^n e^{f(x_i)} = -\sum_{i=1}^n f(x_i)\tag{2}$

em virtude das propriedades dos logaritmos (eles convertem produtos em somas). A expressão é uma constante vezes a expressão . Como as funções de perda são usadas apenas nas estatísticas, comparando-as, não faz diferença que uma seja uma constante (positiva) vezes a outra. É nesse sentido que a probabilidade logarítmica negativa "é uma" entropia cruzada na cotação. $(2)$ $n$ $(1)$

É preciso um pouco mais de imaginação para justificar a segunda afirmação da citação. A conexão com o erro quadrado é clara, porque para um "modelo gaussiano" que prediz valores nos pontos , o valor de em qualquer ponto desse tipo é $p(x)$ $x$ $f$

f (x; p, σ) = - \frac{1}{2} (\log (2 π σ^{2}) + \frac{(x - p (x))^{2}}{σ^{2}}),

$f(x; p, \sigma) = -\frac{1}{2}\left(\log(2\pi \sigma^2) + \frac{(x-p(x))^2}{\sigma^2}\right),$

que é o erro do quadrado mas redimensionado por e deslocado por uma função de . Uma maneira de corrigir a cotação é assumir que ela não considera parte do "modelo" - deve ser determinada de alguma forma independentemente dos dados. Nesse caso, as diferenças entre os erros quadráticos médios são proporcionais às diferenças entre entropias ou verossimilhanças, tornando assim os três equivalentes para fins de ajuste do modelo. $(x-p(x))^2$ $1/(2\sigma^2)$ $\sigma$ $\sigma$ $\sigma$

(Normalmente, porém, é adequado como parte do processo de modelagem; nesse caso, a cotação não seria muito correta.) $\sigma = \sigma(x)$

whuber
fonte

11

+1 com duas sugestões - poderia usar

vez de

para evitar confusão com

. A segunda é que a maioria das estimativas de

será

. Quando você conecta e adiciona, obtém

g ()

$g ()$

f ()

$f ()$

F ()

$F ()$

σ^{2}

$\sigma^2$

k \sum_{i = 1}^{n} {(x_{i} - p (x_{i}))}^{2}

$k\sum_{i=1}^n \left (x_i - p (x_i)\right)^2$

. Semelhante à fórmula do tipo AIC ...

- \frac{1}{2} \log [\sum_{i = 1}^{n} {(x_{i} - p (x_{i}))}^{2}] + h (k)

$-\frac {1}{2}\log\left [\sum_{i=1}^n \left (x_i - p (x_i)\right)^2\right] +h(k)$

probabilityislogic

@probabilityislogic I escolher o par

e

porque eles não representam quantidades intimamente relacionados.

F

$F$

f

$f$

whuber

Oi, acho que isso é aplicado apenas à distribuição linear. Em problemas de distribuição não linear, acho que ainda podemos usar o MSE como função de custo, certo?

Lion Lai

5

Para os leitores do livro Deep Learning, gostaria de acrescentar à excelente resposta aceita que os autores explicam sua declaração em detalhes na seção 5.5.1, a saber o Exemplo: Regressão Linear como Máxima Verossimilhança .

Lá, eles listam exatamente a restrição mencionada na resposta aceita:

$p(y | x) = \mathcal{N}\big(y; \hat{y}(x; w), \sigma^2\big)$ $\hat{y}(x; w)$ $\sigma^2$

$p(y|x)$

Kilian Batzner
fonte

Por que o erro quadrático médio é a entropia cruzada entre a distribuição empírica e um modelo gaussiano?

Respostas: