Considere o modelo Binomia: não é possível encontrar uma expressão analítica para a integral ∫10 0θx( 1 - θ )n - xπ( θ )dθ para todos os \ pi anteriores (\ theta)π( θ ) .
Zen
4
@ Zen que provavelmente vale a pena expandir (apenas um pouco; você basicamente cobre bem a questão subjacente) em uma resposta.
Glen_b -Replica Monica
Você está 100% certo, @Glen_b, mas não sei como explicar isso. O ponto é que, se o posterior for da mesma família, não fazemos a integração. Nós apenas identificamos o "núcleo" da densidade. É algo que fica claro quando o fazemos muitas vezes.
Zen
Não se preocupe, Zen, arriscarei uma resposta.
Glen_b -Replica Monica
Respostas:
13
A conjugação é legal porque significa que, se você puder lidar com o pdf no anterior, poderá fazer o mesmo com o posterior (já que eles têm a mesma forma) - mas é claro que às vezes você quer um prior que seja não é conjugado.
Como a rastreabilidade das integrais surge em um cálculo bayesiano prático?
Imagine que desejamos fazer alguma inferência sobre um parâmetro :θ
p(θ|x)∝p(x|θ)⋅p(θ)
onde o primeiro termo à direita é a probabilidade e o segundo termo é o anterior. A questão é basicamente avaliar a constante de proporcionalidade necessária para obter uma densidade à direita; e então você pode ser capaz de fazer várias coisas com ele (por exemplo, desenhe-o; encontre estatísticas resumidas - sua média, seu modo ou alguns quantis; talvez até faça uma amostra dele). De qualquer forma, ser capaz de encontrar essa integral de alguma forma seria útil, e talvez a coisa mais natural e óbvia a fazer é tentar encontrá-la 'algebricamente' - isto é, usar o pacote usual de truques para avaliar integrais.
Normalmente, o que realmente queremos dizer com intratável é 'analiticamente intratável', mas às vezes é usado um pouco mais livremente. Em certo sentido, "a maioria" das integrais é intratável, para vários valores de 'intratável' (role para baixo até a discussão sobre integrais).
Exemplo
Como o Zen aponta para esse exemplo muito simples de modelo binomial, não há garantia de que você possa fazer a integração para o posterior no parâmetro algebricamente.
Aqui está um exemplo diferente (uma versão simplificada de algo que eu vi surgir):
Considere-se uma posterior Bayesiano para a variância, de uma distribuição normal com média conhecida . O conjugado anterior é gama inversa, mas e se quiséssemos um lognormal anterior? μσ2μ
Então teríamos efetivamente uma integral cujo integrando é da forma
p(σ2|μ,y)∝p(y|μ,σ2)⋅p(σ2)
onde novamente o primeiro termo à direita do é a probabilidade e o segundo é o anterior.∝
Essa probabilidade é da forma:
f(σ2;α,β)=βαΓ(α)(σ2)−α−1exp(−βσ2)
onde e são funções simples dos dados, , o tamanho da amostra, e , e o anterior é da forma:αβynμ
f(σ2;θ,τ)=1σ2τ2π−−√e−(lnσ2−θ)22τ2
... e o produto deles não é algebricamente "agradável" para tentar lidar. Por exemplo, o Wolfram Alpha não pode fazer a integral * e é mais provável que algo assim seja feito em um tempo razoável do que eu.
* (especificamente, podemos eliminar as constantes e combinar termos e colocar para para fornecer para o integrando - e a integral indefinida disso é o que Wolfram Alpha não pode fazer.Talvez haja uma maneira de obtê-lo - ou qualquer outra coisa - para fazer a integral definida em .)σ 2 x - α - 2 exp ( - βxσ2(0,∞)x−α−2exp(−βx−(lnx−θ)22τ2)(0,∞)
Discussão de algumas abordagens para a intratabilidade analítica
Se não fosse o fato de as pessoas frequentemente tenderem a escolher analiticamente "bons" anteriores (especialmente quando ensinam a matéria, mas também frequentemente em problemas reais), seria um problema que surgia quase sempre. Isso não quer dizer que a escolha de priores analiticamente agradáveis esteja errada - geralmente só temos um senso vago de nossas informações prévias (raramente tenho uma distribuição prévia específica em mente, embora possa muito bem ter alguma noção sobre valores possíveis ou prováveis - posso ter um amplo senso de onde eu quero estar a maior parte da probabilidade do meu anterior, ou muito aproximadamente onde a média pode estar, por exemplo - se eu não souber qual forma funcional específica eu quero para o meu prior e um prior conjugado refletir as informações que eu quero ter no meu anterior, que geralmente pode ser uma escolha bastante razoável).
No entanto, em termos práticos, ainda é possível lidar com esse problema de várias maneiras. Podemos, por exemplo, aproximar o posterior a vários graus de precisão. Aqui estão alguns exemplos (de maneira alguma exaustivos): (i) aproximando o desejado anteriormente de várias maneiras - talvez por uma mistura de conjugados ou anteriores tratáveis - produzindo uma mistura correspondente para o posterior, ou (ii) por integração numérica adequada (que no caso univariado pode funcionar surpreendentemente bem) ou (iii) podemos simular a partir dessa distribuição sem conhecer a integral - talvez por amostragem por rejeição ou por meio de uma cadeia de Markov Chain-Monte Carlo do tipo Metropolis-Hastings algoritmo, desde que tenhamos uma função delimitadora adequada ou aproximadamente, respectivamente).
No passado, abordagens comuns para essas questões tendiam a incluir integração numérica (ou integração de Monte Carlo em dimensões mais altas) e aproximação de Laplace . Na verdade, eles ainda são usados em muitos problemas, mas temos muitas outras ferramentas.
Dado que tanto trabalho bayesiano é feito usando várias versões do MCMC e abordagens de amostragem relacionadas atualmente, a rastreabilidade analítica é muito menos um problema do que poderia ter sido antes, mesmo com problemas com um grande número de parâmetros - eu já vi os três as abordagens que mencionei acima usadas nesse contexto; isso significa que temos a liberdade de escolher apenas o anterior que queremos, com base em quão bem ele reflete nosso conhecimento anterior ou por sua capacidade de regularizar a inferência - por sua adequação à nossa inferência, em vez de facilitar a manipulação algébrica. Então você vê, por exemplo, Andrew Gelman defendendo o uso de meias-Cauchy e meia-t anteriores em parâmetros de variância em modelos hierárquicos, eCauchy fracamente informativo prioriza na regressão logística (no entanto, esse trabalho não está usando o MCMC, mas alcançando inferência aproximada via EM juntamente com os mínimos quadrados habitualmente ponderados iterativamente para a regressão logística).
Respostas:
A conjugação é legal porque significa que, se você puder lidar com o pdf no anterior, poderá fazer o mesmo com o posterior (já que eles têm a mesma forma) - mas é claro que às vezes você quer um prior que seja não é conjugado.
Como a rastreabilidade das integrais surge em um cálculo bayesiano prático?
Imagine que desejamos fazer alguma inferência sobre um parâmetro :θ
onde o primeiro termo à direita é a probabilidade e o segundo termo é o anterior. A questão é basicamente avaliar a constante de proporcionalidade necessária para obter uma densidade à direita; e então você pode ser capaz de fazer várias coisas com ele (por exemplo, desenhe-o; encontre estatísticas resumidas - sua média, seu modo ou alguns quantis; talvez até faça uma amostra dele). De qualquer forma, ser capaz de encontrar essa integral de alguma forma seria útil, e talvez a coisa mais natural e óbvia a fazer é tentar encontrá-la 'algebricamente' - isto é, usar o pacote usual de truques para avaliar integrais.
Normalmente, o que realmente queremos dizer com intratável é 'analiticamente intratável', mas às vezes é usado um pouco mais livremente. Em certo sentido, "a maioria" das integrais é intratável, para vários valores de 'intratável' (role para baixo até a discussão sobre integrais).
Exemplo
Como o Zen aponta para esse exemplo muito simples de modelo binomial, não há garantia de que você possa fazer a integração para o posterior no parâmetro algebricamente.
Aqui está um exemplo diferente (uma versão simplificada de algo que eu vi surgir):
Considere-se uma posterior Bayesiano para a variância, de uma distribuição normal com média conhecida . O conjugado anterior é gama inversa, mas e se quiséssemos um lognormal anterior? μσ2 μ
Então teríamos efetivamente uma integral cujo integrando é da forma
onde novamente o primeiro termo à direita do é a probabilidade e o segundo é o anterior.∝
Essa probabilidade é da forma:
onde e são funções simples dos dados, , o tamanho da amostra, e , e o anterior é da forma:α β y n μ
... e o produto deles não é algebricamente "agradável" para tentar lidar. Por exemplo, o Wolfram Alpha não pode fazer a integral * e é mais provável que algo assim seja feito em um tempo razoável do que eu.
* (especificamente, podemos eliminar as constantes e combinar termos e colocar para para fornecer para o integrando - e a integral indefinida disso é o que Wolfram Alpha não pode fazer.Talvez haja uma maneira de obtê-lo - ou qualquer outra coisa - para fazer a integral definida em .)σ 2 x - α - 2 exp ( - βx σ2 (0,∞)x−α−2exp(−βx−(lnx−θ)22τ2) (0,∞)
Discussão de algumas abordagens para a intratabilidade analítica
Se não fosse o fato de as pessoas frequentemente tenderem a escolher analiticamente "bons" anteriores (especialmente quando ensinam a matéria, mas também frequentemente em problemas reais), seria um problema que surgia quase sempre. Isso não quer dizer que a escolha de priores analiticamente agradáveis esteja errada - geralmente só temos um senso vago de nossas informações prévias (raramente tenho uma distribuição prévia específica em mente, embora possa muito bem ter alguma noção sobre valores possíveis ou prováveis - posso ter um amplo senso de onde eu quero estar a maior parte da probabilidade do meu anterior, ou muito aproximadamente onde a média pode estar, por exemplo - se eu não souber qual forma funcional específica eu quero para o meu prior e um prior conjugado refletir as informações que eu quero ter no meu anterior, que geralmente pode ser uma escolha bastante razoável).
No entanto, em termos práticos, ainda é possível lidar com esse problema de várias maneiras. Podemos, por exemplo, aproximar o posterior a vários graus de precisão. Aqui estão alguns exemplos (de maneira alguma exaustivos): (i) aproximando o desejado anteriormente de várias maneiras - talvez por uma mistura de conjugados ou anteriores tratáveis - produzindo uma mistura correspondente para o posterior, ou (ii) por integração numérica adequada (que no caso univariado pode funcionar surpreendentemente bem) ou (iii) podemos simular a partir dessa distribuição sem conhecer a integral - talvez por amostragem por rejeição ou por meio de uma cadeia de Markov Chain-Monte Carlo do tipo Metropolis-Hastings algoritmo, desde que tenhamos uma função delimitadora adequada ou aproximadamente, respectivamente).
No passado, abordagens comuns para essas questões tendiam a incluir integração numérica (ou integração de Monte Carlo em dimensões mais altas) e aproximação de Laplace . Na verdade, eles ainda são usados em muitos problemas, mas temos muitas outras ferramentas.
Dado que tanto trabalho bayesiano é feito usando várias versões do MCMC e abordagens de amostragem relacionadas atualmente, a rastreabilidade analítica é muito menos um problema do que poderia ter sido antes, mesmo com problemas com um grande número de parâmetros - eu já vi os três as abordagens que mencionei acima usadas nesse contexto; isso significa que temos a liberdade de escolher apenas o anterior que queremos, com base em quão bem ele reflete nosso conhecimento anterior ou por sua capacidade de regularizar a inferência - por sua adequação à nossa inferência, em vez de facilitar a manipulação algébrica. Então você vê, por exemplo, Andrew Gelman defendendo o uso de meias-Cauchy e meia-t anteriores em parâmetros de variância em modelos hierárquicos, eCauchy fracamente informativo prioriza na regressão logística (no entanto, esse trabalho não está usando o MCMC, mas alcançando inferência aproximada via EM juntamente com os mínimos quadrados habitualmente ponderados iterativamente para a regressão logística).
fonte