Por que o posterior bayesiano se concentra em torno do minimizador da divergência de KL?

9

Considere o Bayesian posterior . Assintoticamente, seu máximo ocorre na estimativa MLE , que apenas maximiza a probabilidade .θXθ^argminθfθ(X)

Todos esses conceitos - priores Bayesianos, maximizando a probabilidade - parecem superprincípios e nada arbitrários. Não há um log à vista.

No entanto MLE minimiza a divergência KL entre a verdadeira distribuição e , ou seja, ela minimizaf~fθ(x)

KL(f~fθ)=+f~(x)[logf~(x)logfθ(x)]dx

Woah - de onde esses logs vieram? Por que a divergência KL em particular?

Por que, por exemplo, minimizar uma divergência diferente não corresponde aos conceitos de super princípios e motivados dos posteriores bayesianos e maximizar a probabilidade acima?

Parece haver algo de especial na divergência e / ou registros de KL neste contexto. Claro, podemos jogar as mãos para o alto e dizer que é assim que a matemática é. Mas suspeito que possa haver alguma intuição ou conexões mais profundas a serem descobertas.

Yatharth Agarwal
fonte
Você pode encontrar algumas idéias aqui: stats.stackexchange.com/questions/188903/…
kjetil b halvorsen
@kjetilbhalvorsen O título anterior parecia uma duplicata; Peço desculpas. Fiz uma edição e deve ficar claro por que essa pergunta não é duplicada.
Yatharth Agarwal 15/02/19
As outras perguntas são: "O que é a divergência de KL e por que não é simétrico?" As respostas explicam o conceito de divergência e algumas informações sobre KL. Por outro lado, essa pergunta é: "Por que o posterior bayesiano se concentra em torno do minimizador da divergência de KL?" Simplesmente explicar como as divergências não precisam ser simétricas e explicar a KL e afirmar que a KL está conectada ao MLE não abordam o cerne da questão aqui: por que, dentre as muitas divergências possíveis, a KL em particular tem uma conexão especial com a posterior Bayesiana. Isso faz sentido?
Yatharth Agarwal 15/02/19
Sim, faz sentido, mas ainda há um problema. O posterior depende também do anterior e, se for forte, o posterior pode ter um máximo de distância da mle. Mas o prior está ausente da sua pergunta.
Kjetil b halvorsen
@kjetilbhalversen Eu quis dizer assintoticamente com mais e mais amostras de IDI e sob as condições (rigorosas) sob as quais o anterior não importa assintoticamente!
Yatharth Agarwal 15/02/19

Respostas:

5

O uso de logaritmos em cálculos como esse vem da teoria da informação . No caso particular da divergência KL, a medida pode ser interpretada como a informação relativa de duas distribuições:

KL(f~fθ)=f~(x)(logf~(x)logfθ(x)) dx=(f~(x)logfθ(x) dxH(f~,fθ))(f~(x)logf~(x) dxH(f~)),

onde é a entropia de e é a entropia cruzada dos e . A entropia pode ser considerada como medida da taxa média produzida por uma densidade (a entropia cruzada é um pouco mais complicada). Minimizar a divergência de KL para um valor fixo (como no problema mencionado) é equivalente a minimizar a entropia cruzada e, portanto, essa otimização pode receber uma interpretação teórica da informação.H(f~)f~H(f~,fθ)f~fθf~

Não é possível fazer um bom relato da teoria da informação e das propriedades das medidas da informação em um breve post. No entanto, eu recomendaria dar uma olhada no campo, pois ele tem conexões estreitas com as estatísticas. Muitas medidas estatísticas envolvendo integrais e somas sobre logaritmos de densidades são combinações simples de medidas de informação padrão usadas na teoria de medidas e, nesses casos, podem receber interpretações em termos dos níveis subjacentes de informação em várias densidades, etc.

Ben - Restabelecer Monica
fonte
Analisar a teoria da informação parece promissor! Obrigado por me indicar isso.
Yatharth Agarwal 15/02/19
Obviamente, você não pode explicar um campo matemático inteiro em uma postagem do StackExchange, mas você teria alguma referência específica a eles quando o log for exibido?
Yatharth Agarwal 15/02/19
Eu só acho que há uma intuição tão profunda por trás, por exemplo, e e na equação de Euler e tal, que há uma intuição semelhante à espreita aqui. Talvez um produto em algum lugar faça surgir o logaritmo natural. Não tenho certeza.
Yatharth Agarwal 15/02/19
@ Yatharth, o logaritmo surge aqui devido ao seu papel central na definição de entropia de Shannon. Quanto ao "por que" um logaritmo é apropriado para uma medida de informação, em oposição a outra função, dê uma olhada no teorema 2 da "Teoria Matemática da Comunicação" de Shannon. Além disso, a "Teoria da Informação e Mecânica Estatística" de Jayne é uma boa introdução.
Nate Pope