Por que o erro quadrático médio é a entropia cruzada entre a distribuição empírica e um modelo gaussiano?

28

Em 5.5, Deep Learning (de Ian Goodfellow, Yoshua Bengio e Aaron Courville), afirma que

Qualquer perda que consiste em uma probabilidade logarítmica negativa é uma entropia cruzada entre a distribuição empírica definida pelo conjunto de treinamento e a distribuição de probabilidade definida pelo modelo. Por exemplo, erro quadrático médio é a entropia cruzada entre a distribuição empírica e um modelo gaussiano.

Não consigo entender por que eles são equivalentes e os autores não expandem o assunto.

Mufei Li
fonte

Respostas:

32

Seja os dados . Escreva F ( x ) para a distribuição empírica. Por definição, para qualquer função f ,x=(x1,,xn)F(x)f

EF(x)[f(X)]=1ni=1nf(xi).

Deixe o modelo tem densidade e f ( x ) , onde f é definido sobre o suporte do modelo. A entropia cruzada de F ( x ) e M é definida comoMef(x)fF(x)M

(1)H(F(x),M)=EF(x)[log(ef(X)]=EF(x)[f(X)]=1ni=1nf(xi).

Supondo que é uma amostra aleatória simples, sua probabilidade de log negativa éx

(2)log(L(x))=logi=1nef(xi)=i=1nf(xi)

em virtude das propriedades dos logaritmos (eles convertem produtos em somas). A expressão é uma constante n vezes a expressão ( 1 ) . Como as funções de perda são usadas apenas nas estatísticas, comparando-as, não faz diferença que uma seja uma constante (positiva) vezes a outra. É nesse sentido que a probabilidade logarítmica negativa "é uma" entropia cruzada na cotação.(2)n(1)


É preciso um pouco mais de imaginação para justificar a segunda afirmação da citação. A conexão com o erro quadrado é clara, porque para um "modelo gaussiano" que prediz valores nos pontos x , o valor de f em qualquer ponto desse tipo ép(x)xf

f(x;p,σ)=12(log(2πσ2)+(xp(x))2σ2),

que é o erro do quadrado mas redimensionado por 1 / ( 2 σ 2 ) e deslocado por uma função de σ . Uma maneira de corrigir a cotação é assumir que ela não considera σ parte do "modelo" - σ deve ser determinada de alguma forma independentemente dos dados. Nesse caso, as diferenças entre os erros quadráticos médios são proporcionais às diferenças entre entropias ou verossimilhanças, tornando assim os três equivalentes para fins de ajuste do modelo.(xp(x))2 1/(2σ2)σσσ

(Normalmente, porém, é adequado como parte do processo de modelagem; nesse caso, a cotação não seria muito correta.)σ=σ(x)

whuber
fonte
11
+1 com duas sugestões - poderia usar vez de f ( ) para evitar confusão com F ( ) . A segunda é que a maioria das estimativas de σ 2 será k n i = 1 ( x i - p ( x i ) ) 2 . Quando você conecta e adiciona, obtém - 1g()f()F()σ2ki=1n(xip(xi))2. Semelhante à fórmula do tipo AIC ...12log[i=1n(xip(xi))2]+h(k)
probabilityislogic
@probabilityislogic I escolher o par e f porque eles não representam quantidades intimamente relacionados. Ff
whuber
Oi, acho que isso é aplicado apenas à distribuição linear. Em problemas de distribuição não linear, acho que ainda podemos usar o MSE como função de custo, certo?
Lion Lai
5

Para os leitores do livro Deep Learning, gostaria de acrescentar à excelente resposta aceita que os autores explicam sua declaração em detalhes na seção 5.5.1, a saber o Exemplo: Regressão Linear como Máxima Verossimilhança .

Lá, eles listam exatamente a restrição mencionada na resposta aceita:

p(y|x)=N(y;y^(x;w),σ2)y^(x;w)σ2

p(y|x)

Kilian Batzner
fonte