Considere o Bayesian posterior . Assintoticamente, seu máximo ocorre na estimativa MLE , que apenas maximiza a probabilidade .
Todos esses conceitos - priores Bayesianos, maximizando a probabilidade - parecem superprincípios e nada arbitrários. Não há um log à vista.
No entanto MLE minimiza a divergência KL entre a verdadeira distribuição e , ou seja, ela minimiza
Woah - de onde esses logs vieram? Por que a divergência KL em particular?
Por que, por exemplo, minimizar uma divergência diferente não corresponde aos conceitos de super princípios e motivados dos posteriores bayesianos e maximizar a probabilidade acima?
Parece haver algo de especial na divergência e / ou registros de KL neste contexto. Claro, podemos jogar as mãos para o alto e dizer que é assim que a matemática é. Mas suspeito que possa haver alguma intuição ou conexões mais profundas a serem descobertas.
fonte
Respostas:
O uso de logaritmos em cálculos como esse vem da teoria da informação . No caso particular da divergência KL, a medida pode ser interpretada como a informação relativa de duas distribuições:
onde é a entropia de e é a entropia cruzada dos e . A entropia pode ser considerada como medida da taxa média produzida por uma densidade (a entropia cruzada é um pouco mais complicada). Minimizar a divergência de KL para um valor fixo (como no problema mencionado) é equivalente a minimizar a entropia cruzada e, portanto, essa otimização pode receber uma interpretação teórica da informação.H(f~) f~ H(f~,fθ) f~ fθ f~
Não é possível fazer um bom relato da teoria da informação e das propriedades das medidas da informação em um breve post. No entanto, eu recomendaria dar uma olhada no campo, pois ele tem conexões estreitas com as estatísticas. Muitas medidas estatísticas envolvendo integrais e somas sobre logaritmos de densidades são combinações simples de medidas de informação padrão usadas na teoria de medidas e, nesses casos, podem receber interpretações em termos dos níveis subjacentes de informação em várias densidades, etc.
fonte