Não conjugado anterior

8

Alguém pode explicar por que a integral na densidade posterior pode não ser "analiticamente tratável" se o anterior que escolhemos não é conjugado?


fonte
3
Considere o modelo Binomia: não é possível encontrar uma expressão analítica para a integral 01θx(1θ)nxπ(θ)dθ para todos os \ pi anteriores (\ theta)π(θ) .
Zen
4
@ Zen que provavelmente vale a pena expandir (apenas um pouco; você basicamente cobre bem a questão subjacente) em uma resposta.
Glen_b -Replica Monica
Você está 100% certo, @Glen_b, mas não sei como explicar isso. O ponto é que, se o posterior for da mesma família, não fazemos a integração. Nós apenas identificamos o "núcleo" da densidade. É algo que fica claro quando o fazemos muitas vezes.
Zen
Não se preocupe, Zen, arriscarei uma resposta.
Glen_b -Replica Monica

Respostas:

13

A conjugação é legal porque significa que, se você puder lidar com o pdf no anterior, poderá fazer o mesmo com o posterior (já que eles têm a mesma forma) - mas é claro que às vezes você quer um prior que seja não é conjugado.

Como a rastreabilidade das integrais surge em um cálculo bayesiano prático?

Imagine que desejamos fazer alguma inferência sobre um parâmetro :θ

p(θ|x)p(x|θ)p(θ)

onde o primeiro termo à direita é a probabilidade e o segundo termo é o anterior. A questão é basicamente avaliar a constante de proporcionalidade necessária para obter uma densidade à direita; e então você pode ser capaz de fazer várias coisas com ele (por exemplo, desenhe-o; encontre estatísticas resumidas - sua média, seu modo ou alguns quantis; talvez até faça uma amostra dele). De qualquer forma, ser capaz de encontrar essa integral de alguma forma seria útil, e talvez a coisa mais natural e óbvia a fazer é tentar encontrá-la 'algebricamente' - isto é, usar o pacote usual de truques para avaliar integrais.

Normalmente, o que realmente queremos dizer com intratável é 'analiticamente intratável', mas às vezes é usado um pouco mais livremente. Em certo sentido, "a maioria" das integrais é intratável, para vários valores de 'intratável' (role para baixo até a discussão sobre integrais).

Exemplo

Como o Zen aponta para esse exemplo muito simples de modelo binomial, não há garantia de que você possa fazer a integração para o posterior no parâmetro algebricamente.

Aqui está um exemplo diferente (uma versão simplificada de algo que eu vi surgir):

Considere-se uma posterior Bayesiano para a variância, de uma distribuição normal com média conhecida . O conjugado anterior é gama inversa, mas e se quiséssemos um lognormal anterior? μσ2μ

Então teríamos efetivamente uma integral cujo integrando é da forma

p(σ2|μ,y)p(y|μ,σ2)p(σ2)

onde novamente o primeiro termo à direita do é a probabilidade e o segundo é o anterior.

Essa probabilidade é da forma:

f(σ2;α,β)=βαΓ(α)(σ2)α1exp(βσ2)

onde e são funções simples dos dados, , o tamanho da amostra, e , e o anterior é da forma:αβynμ

f(σ2;θ,τ)=1σ2τ2πe(lnσ2θ)22τ2

... e o produto deles não é algebricamente "agradável" para tentar lidar. Por exemplo, o Wolfram Alpha não pode fazer a integral * e é mais provável que algo assim seja feito em um tempo razoável do que eu.

* (especificamente, podemos eliminar as constantes e combinar termos e colocar para para fornecer para o integrando - e a integral indefinida disso é o que Wolfram Alpha não pode fazer.Talvez haja uma maneira de obtê-lo - ou qualquer outra coisa - para fazer a integral definida em .)σ 2 x - α - 2 exp ( - βxσ2(0,)xα2exp(βx(lnxθ)22τ2)(0,)

Discussão de algumas abordagens para a intratabilidade analítica

Se não fosse o fato de as pessoas frequentemente tenderem a escolher analiticamente "bons" anteriores (especialmente quando ensinam a matéria, mas também frequentemente em problemas reais), seria um problema que surgia quase sempre. Isso não quer dizer que a escolha de priores analiticamente agradáveis ​​esteja errada - geralmente só temos um senso vago de nossas informações prévias (raramente tenho uma distribuição prévia específica em mente, embora possa muito bem ter alguma noção sobre valores possíveis ou prováveis ​​- posso ter um amplo senso de onde eu quero estar a maior parte da probabilidade do meu anterior, ou muito aproximadamente onde a média pode estar, por exemplo - se eu não souber qual forma funcional específica eu quero para o meu prior e um prior conjugado refletir as informações que eu quero ter no meu anterior, que geralmente pode ser uma escolha bastante razoável).

No entanto, em termos práticos, ainda é possível lidar com esse problema de várias maneiras. Podemos, por exemplo, aproximar o posterior a vários graus de precisão. Aqui estão alguns exemplos (de maneira alguma exaustivos): (i) aproximando o desejado anteriormente de várias maneiras - talvez por uma mistura de conjugados ou anteriores tratáveis ​​- produzindo uma mistura correspondente para o posterior, ou (ii) por integração numérica adequada (que no caso univariado pode funcionar surpreendentemente bem) ou (iii) podemos simular a partir dessa distribuição sem conhecer a integral - talvez por amostragem por rejeição ou por meio de uma cadeia de Markov Chain-Monte Carlo do tipo Metropolis-Hastings algoritmo, desde que tenhamos uma função delimitadora adequada ou aproximadamente, respectivamente).

No passado, abordagens comuns para essas questões tendiam a incluir integração numérica (ou integração de Monte Carlo em dimensões mais altas) e aproximação de Laplace . Na verdade, eles ainda são usados ​​em muitos problemas, mas temos muitas outras ferramentas.

Dado que tanto trabalho bayesiano é feito usando várias versões do MCMC e abordagens de amostragem relacionadas atualmente, a rastreabilidade analítica é muito menos um problema do que poderia ter sido antes, mesmo com problemas com um grande número de parâmetros - eu já vi os três as abordagens que mencionei acima usadas nesse contexto; isso significa que temos a liberdade de escolher apenas o anterior que queremos, com base em quão bem ele reflete nosso conhecimento anterior ou por sua capacidade de regularizar a inferência - por sua adequação à nossa inferência, em vez de facilitar a manipulação algébrica. Então você vê, por exemplo, Andrew Gelman defendendo o uso de meias-Cauchy e meia-t anteriores em parâmetros de variância em modelos hierárquicos, eCauchy fracamente informativo prioriza na regressão logística (no entanto, esse trabalho não está usando o MCMC, mas alcançando inferência aproximada via EM juntamente com os mínimos quadrados habitualmente ponderados iterativamente para a regressão logística).

Glen_b -Reinstate Monica
fonte