Ao aproximar um posterior usando o MCMC, por que não salvamos as probabilidades posteriores, mas usamos as frequências do valor do parâmetro posteriormente?

8

Atualmente, estou estimando parâmetros de um modelo definido por várias equações diferenciais ordinárias (ODEs). Eu tento isso com uma abordagem bayesiana aproximando a distribuição posterior dos parâmetros dados alguns dados usando a cadeia de Markov Monte Carlo (MCMC).

Um amostrador MCMC gera uma cadeia de valores de parâmetros em que utiliza a probabilidade posterior (não normalizada) de um determinado valor de parâmetro para decidir (estocisticamente) se irá adicionar esse valor à cadeia ou adicionar o valor anterior novamente. Porém, parece ser a prática que as probabilidades posteriores reais não precisam ser salvas, mas sim um histograma n-dimensional dos valores de parâmetros resultantes gerados e estatísticas resumidas como regiões de maior densidade (HDRs) de uma ditribuição posterior de parâmetro são calculadas deste histograma. Pelo menos foi o que acho que aprendi com o livro tutorial de Kruschkes sobre inferência bayesiana .

Minha pergunta: não seria mais simples salvar as probabilidades posteriores dos valores dos parâmetros amostrados junto com eles e aproximar a distribuição posterior desses valores e não das frequências dos valores dos parâmetros na cadeia MCMC? O problema da fase de queima não surgiria, pois o amostrador ainda amostraria regiões de baixa probabilidade com mais freqüência do que "mereceria" por suas probabilidades posteriores, mas não seria mais o problema de atribuir valores de probabilidade indevidamente altos a elas.

akraf
fonte
Se você pode calcular as probabilidades posteriores sem usar o MCMC (para salvá-las), por que você gostaria de usá-las?
Tim
Porque eu preciso do MCMC para ganhar eficiência. Se eu apenas colocasse uma grade sobre o espaço do parâmetro e calculasse probabilidades posteriores não normalizadas para todos os valores de parâmetros resultantes, gastaria muito tempo em regiões de baixa probabilidade. Ser capaz de obter valores de probabilidade posterior não normalizados para um determinado valor de parâmetro é uma condição prévia para o uso do MCMC. Não preciso ser capaz de resolver o posterior analiticamente. Para que eu pudesse pegar todos os valores de probabilidade salvos, dividi-los por sua soma e o resultado seria uma aproximação do meu posterior.
akraf 01/09/16
1
@ Tim: o que ele quer dizer é que, para calcular a probabilidade de aceitação do movimento proposto, você avalia o posterior no estado atual e no estado proposto. Se você mantiver esses valores posteriores para cada estado alcançado, o OP achará que você pode derivar todo o posterior, mas esse não é o caso, pelo menos nunca vi um teorema que comprove isso. Ao olhar para a distribuição dos estados atingiram mostra teoria de Markov que você obtenha uma amostra do posterior 'no final'
@fcop sim, eu entendo isso e eu acho que nós estamos dizendo a mesma coisa, mas com palavras diferentes :)
Tim

Respostas:

5

Esta é uma pergunta interessante, com diferentes questões:

  1. θi (i=1,,T)ωi
    i=1Tωih(θi)/i=1Tωi
  2. O MCMC é frequentemente usado em problemas de grande dimensão (parâmetro). Propor uma aproximação a todo o posterior com base nos valores de densidade observados em alguns valores de parâmetros é um grande desafio, incluindo a questão da constante de normalização mencionada na resposta e nos comentários de Tim. Pode-se imaginar uma abordagem que é uma mistura de estimativa não-paramétrica do kernel (como, por exemplo, krigging ) e regressão, mas os especialistas com os quais discuti sobre essa solução [alguns anos atrás] eram bastante céticos. A questão é que o estimador resultante permanece não paramétrico e, portanto, "desfruta" de velocidades de convergência não paramétricas mais lentas que as velocidades de convergência de Monte Carlo, quanto pior, maior a dimensão.
  3. π(θ|D)
    1Tt=1Th(θt)π(θt|D)
    E[h(θt)π(θt|D)]=h(θ)h(θt)π(θt|D)2dθ
    π(θ|D)1/2π(θ|D)1/2π(θ)1/T
Xi'an
fonte
2
Obrigado por seus extensos comentários, permita-me algumas perguntas esclarecedoras! Não entendo o que você quer dizer com "reciclar" no seu ponto 1 e como isso está impedindo o uso de valores posteriores não normalizados. Ponto 2: Se a "aproximação de todo o posterior com base nos valores de densidade observados em alguns valores de parâmetros é um grande desafio", por que é menos se o uso apenas das frequências das amostras resultantes do processo MCMC?
akraf
1
π(θ|D)1/TT>1Tπ(θ|D)π(θ|D)1/T
2

Como você notou corretamente, as probabilidades com as quais estamos lidando não são normalizadas . Basicamente, usamos o MCMC para calcular o fator de normalização no teorema de Bayes. Não podemos usar as probabilidades porque elas não são normalizadas. O procedimento que você sugere: salvar as probabilidades não normalizadas e depois dividi-las pela soma está incorreto.

p=0.9

1 0 1 1 1 1 1 1 1 1

você também tem probabilidades correspondentes:

0.9 0.1 0.9 0.9 0.9 0.9 0.9 0.9 0.9 0.9

Nesse caso, as probabilidades são normalizadas, mas dividi-las por sua soma (que por axiomas de probabilidade é igual a unidade) não deve mudar nada. Infelizmente, usando o procedimento que faz mudar os resultados de:

> f/sum(f)
 [1] 0.10975610 0.01219512 0.10975610 0.10975610 0.10975610 0.10975610 0.10975610 0.10975610 0.10975610 0.10975610

Por que é que? A resposta é simples: em sua amostra, cada "probabilidade" salva faparece com probabilidade f; portanto, você está ponderando as probabilidades por conta própria!

Tim
fonte