Como um prévio inadequado pode levar a uma distribuição posterior adequada?
22
Sabemos que, no caso de uma distribuição prévia adequada,
P(θ∣X)=P(X∣θ)P(θ)P(X)
∝P(X∣θ)P(θ) .
A justificativa usual para esta etapa é que a distribuição marginal de , é constante em relação a e, portanto, pode ser ignorada ao derivar a distribuição posterior.XP(X)θ
No entanto, no caso de um anterior impróprio, como você sabe que a distribuição posterior realmente existe? Parece haver algo faltando nesse argumento aparentemente circular. Em outras palavras, se eu presumo que o posterior existe, entendo a mecânica de como derivar o posterior, mas parece que estou perdendo a justificativa teórica de por que ele existe.
PS Também reconheço que há casos em que um anterior impróprio leva a um posterior impróprio.
Geralmente aceitamos posteriores de anteriores impróprios se
existe e é uma distribuição de probabilidade válida (ou seja, ele se integra exatamente a 1 no suporte). Essencialmente, isso se resume a finito. Se for esse o caso, chamamos essa quantidade de \ pi (\ theta \ mid X) e a aceitamos como a distribuição posterior que queremos. No entanto, é importante notar que essa NÃO é uma distribuição posterior, nem uma distribuição de probabilidade condicional (esses dois termos são sinônimos no contexto aqui).π( θ ) π(X)=∫π(X|θ)π(θ)
π( X∣ θ ) π( θ )π( X)
π ( θ ∣ X )π( X) = ∫π( X∣ θ ) π( θ )dθπ( θ ∣ X)
Agora, eu disse que aceitamos distribuições "posteriores" de anteriores impróprios, dado o exposto acima. A razão pela qual eles são aceitos é porque o ainda nos dará 'pontuações' relativas no espaço do parâmetro; isto é, a proporção traz significado à nossa análise. O significado que obtemos dos priores impróprios em alguns casos pode não estar disponível nos priores apropriados. Esta é uma justificativa potencial para usá-los. Veja a resposta de Sergio para um exame mais minucioso da motivação prática de anteriores impróprios.π ( θ 1 )π( θ )π( θ1)π( θ2)
Vale ressaltar que essa quantidade também possui propriedades teóricas desejáveis, Degroot & Schervish :π( θ ∣ X)
Priores impróprios não são verdadeiras distribuições de probabilidade, mas se fingirmos que são, calcularemos distribuições posteriores que se aproximam dos posteriores que obteríamos usando anteriores conjugados adequados com valores extremos dos hiperparâmetros anteriores.
Estou confuso com algumas coisas na sua resposta. Você diz que aceitamos posteriores se o acima for finito. Isso significa que se essa integral não for finita, a posterior não será finita? Além disso, você parece sugerir que usamos o posterior neste caso, mas não é uma distribuição real - está certo? não há casos em que é uma distribuição real? Além disso, o que a relação de prévios tem a ver com isso? Não vejo a conexão.
Ben Elizabeth Ward
@BenElizabethWard Se existe, a integral deve existir (e, portanto, ser finita). O contrapositivo também é verdadeiro: se não existe (é infinito), então não existe. Quando existe e é uma distribuição de probabilidade válida, é uma distribuição de probabilidade. No entanto, não é uma distribuição posterior para com a probabilidade de dados fornecida . O posterior para esse prioritário não existe. Aceitamos em nossa análise porque é uma aproximação. π ( X ) π ( X ) π ( θ ∣ X ) π ( θ ∣ X ) π ( θ ) π ( X ∣ θ ) π ( θ ∣ X )π(θ∣X)π(X)π(X)π(θ∣X)π(θ∣X)π(θ)π( X∣ θ )π( θ ∣ X)
1
@BenElizabethWard A proporção foi usada para demonstrar que o prior ainda contém informações úteis que talvez não possamos carregar em um prior adequado. Vou editar minha resposta para incluir isso.
2
@jsk não é uma distribuição de probabilidade, mas a definição de distribuição posterior exige que seja uma distribuição de probabilidade, por isso é trapaça chamar uma distribuição posterior quando é uma distribuição de probabilidade. Degroot & Schervish dizem '..nós calcularemos as distribuições posteriores que ...', pelas quais eles assumem que você concordou em 'fingir que eles [os antecedentes impróprios] são [os antecedentes apropriados]', conforme expresso anteriormente na citação. π ( θ ) π ( θ ∣ X )π(θ)π(θ)π(θ∣X)
1
Para tornar sua resposta completa e independente, para que futuros leitores não precisem ler essa troca de comentários, deseja atualizar sua resposta?
jsk
9
Há uma resposta "teórica" e uma resposta "pragmática".
Do ponto de vista terórico, quando um prioritário é impróprio, o posterior não existe (bem, observe a resposta de Mateus para uma afirmação mais sólida), mas pode ser aproximado por uma forma limitadora.
Se os dados compreenderem uma amostra condicionalmente da distribuição Bernoulli com o parâmetro , e tiver a distribuição beta com os parâmetros e , a distribuição posterior de será a distribuição beta com os parâmetros ( observações, sucessos) e sua média é . Se usarmos a distribuição beta imprópria (e irreal) antes dos parâmetros de hype anteriores e fingirmos queθ α β θ α + s , β + n - s n s ( α + s ) / ( α + β + n ) α = β = 0 π ( θ ) ∝ θ - 1 ( 1 - θ ) - 1 θ s - 1 ( 1 - θ ) n - sθθαβθα+s,β+n−sns(α+s)/(α+β+n)α=β=0π( θ ) ∝ θ- 1( 1 - θ )- 1, obtemos uma proporcional posterior adequada a , ou seja, o pdf da distribuição beta com parâmetros e exceto por um fator constante. Esta é a forma limitadora do posterior para um beta anterior com os parâmetros e (Degroot & Schervish, Exemplo 7.3.13). sn-sα→0β→0θs - 1( 1 - θ )n - s - 1sn - sα → 0β→ 0
Em um modelo normal com média , variação conhecida e uma distribuição anterior para , se a precisão anterior, , é pequeno em relação à precisão dos dados, , então a distribuição posterior é aproximadamente como se :
ou seja, a distribuição posterior é aproximadamente a que resultaria da suposição de que é proporcional a uma constante paraσ 2 N ( μ 0 , τ 2 0 ) θ 1 / τ 2 0 n / σ 2 τ 2 0 = ∞ p ( θ ∣ x ) ≈ N ( θ ∣ ˉ x , σ 2 / n ) p ( θ ) θ ∈ ( - ∞ , ∞ ) τ 2 0θσ2N( μ0 0, τ20 0)θ1 / τ20 0n / σ2τ20 0= ∞
p ( θ ∣ x ) ≈ N( θ ∣ x¯, σ2/ n)
p ( θ )θ∈(−∞,∞), uma distribuição que não é estritamente possível, mas a forma limitadora do posterior à medida que aproxima de existe ( Gelman et al. , p. 52).τ20∞
Do ponto de vista "pragmático", quando
seja qual for o , portanto, se em
, então . Priores impróprios podem ser empregados para representar o comportamento local da distribuição anterior na região onde a probabilidade é apreciável, digamos . Supondo que, para uma aproximação suficiente, um anterior siga formas como ou somente acima dep ( x ∣ θ ) = 0 p ( θ ) p ( x ∣ θ ) ≠ 0 ( a , b ) ∫ ∞ - ∞ p ( x ∣ θ ) p ( θ ) d θ = ∫ b a p ( x ∣p(x∣θ)p(θ)=0p(x∣θ)=0p(θ)p(x∣θ)≠0(a,b)( um , b ) f ( x ) = k , x ∈ ( - ∞ , ∞ ) f ( x ) = K x - 1 , x ∈ ( 0 , ∞ ) ( um , b ) θ U ( - ∞ , ∞ ) ( a ,∫∞−∞p(x∣θ)p(θ)dθ=∫bap(x∣θ)p(θ)dθ(a,b)f(x)=k,x∈(−∞,∞)f(x)=kx−1,x∈(0,∞)(a,b), para que zero caia adequadamente fora desse intervalo, garantimos que os anteriores realmente usados sejam adequados ( Box e Tiao , p. 21). Portanto, se a distribuição anterior de for mas
estiver limitada, será como se , ou seja, . Para um exemplo concreto, é o que acontece em Stan : se nenhum prior é especificado para um parâmetro, ele recebe implicitamente um uniforme anterior em seu suporte e isso é tratado como uma multiplicação da probabilidade por uma constante.θU(−∞,∞)θ ∼ U ( a , b ) p ( x ∣ θ ) p ( θ ) = p ( x ∣ θ ) k ∝ p ( x ∣ θ )(a,b)θ∼U(a,b)p(x∣θ)p(θ)=p(x∣θ)k∝p(x∣θ)
Você pode dizer mais sobre por que ele não existe do ponto de vista teórico?
jsk
Eu não poderia explicar melhor que Matthew em sua resposta e em seus comentários.
Sergio
Na seção pragmática, o que é y? Também nessa seção, alguns dos termos devem ter a probabilidade ? p ( x ∣ θ )p ( θ ∣ x )p ( x ∣ θ )
jsk
Obrigado. Eu acho que pode haver mais um erro ... Você escreve , mas o anterior não pode depender de . Você quer dizer ? x P ( θ ) = k θ - 1P( θ ) = k x- 1xP( θ ) = k θ- 1
jsk
Direita! Reescrevi essas fórmulas como estão na Box & Tiao. Eu estava tentando escolher uma notação homogênea (por exemplo, Gelman usa vez de , DeGroot usa Para anteriores e posteriores etc.), mas acabei bagunçado ... Obrigado! yxξ( . )
Sergio
2
No entanto, no caso de um anterior impróprio, como você sabe que a distribuição posterior realmente existe?
O posterior também pode não ser adequado. Se o prior é impróprio e a probabilidade é plana (porque não há observações significativas), o posterior é igual ao prior e também é impróprio.
Geralmente você tem algumas observações, e geralmente a probabilidade não é plana, portanto a posterior é adequada.
Há uma resposta "teórica" e uma resposta "pragmática".
Do ponto de vista terórico, quando um prioritário é impróprio, o posterior não existe (bem, observe a resposta de Mateus para uma afirmação mais sólida), mas pode ser aproximado por uma forma limitadora.
Se os dados compreenderem uma amostra condicionalmente da distribuição Bernoulli com o parâmetro , e tiver a distribuição beta com os parâmetros e , a distribuição posterior de será a distribuição beta com os parâmetros ( observações, sucessos) e sua média é . Se usarmos a distribuição beta imprópria (e irreal) antes dos parâmetros de hype anteriores e fingirmos queθ α β θ α + s , β + n - s n s ( α + s ) / ( α + β + n ) α = β = 0 π ( θ ) ∝ θ - 1 ( 1 - θ ) - 1 θ s - 1 ( 1 - θ ) n - sθ θ α β θ α+s,β+n−s n s (α+s)/(α+β+n) α=β=0 π( θ ) ∝ θ- 1( 1 - θ )- 1 , obtemos uma proporcional posterior adequada a , ou seja, o pdf da distribuição beta com parâmetros e exceto por um fator constante. Esta é a forma limitadora do posterior para um beta anterior com os parâmetros e (Degroot & Schervish, Exemplo 7.3.13). sn-sα→0β→0θs - 1( 1 - θ )n - s - 1 s n - s α → 0 β→ 0
Em um modelo normal com média , variação conhecida e uma distribuição anterior para , se a precisão anterior, , é pequeno em relação à precisão dos dados, , então a distribuição posterior é aproximadamente como se : ou seja, a distribuição posterior é aproximadamente a que resultaria da suposição de que é proporcional a uma constante paraσ 2 N ( μ 0 , τ 2 0 ) θ 1 / τ 2 0 n / σ 2 τ 2 0 = ∞ p ( θ ∣ x ) ≈ N ( θ ∣ ˉ x , σ 2 / n ) p ( θ ) θ ∈ ( - ∞ , ∞ ) τ 2 0θ σ2 N( μ0 0, τ20 0) θ 1 / τ20 0 n / σ2 τ20 0= ∞
Do ponto de vista "pragmático", quando seja qual for o , portanto, se em , então . Priores impróprios podem ser empregados para representar o comportamento local da distribuição anterior na região onde a probabilidade é apreciável, digamos . Supondo que, para uma aproximação suficiente, um anterior siga formas como ou somente acima dep ( x ∣ θ ) = 0 p ( θ ) p ( x ∣ θ ) ≠ 0 ( a , b ) ∫ ∞ - ∞ p ( x ∣ θ ) p ( θ ) d θ = ∫ b a p ( x ∣p(x∣θ)p(θ)=0 p(x∣θ)=0 p(θ) p(x∣θ)≠0 (a,b) ( um , b ) f ( x ) = k , x ∈ ( - ∞ , ∞ ) f ( x ) = K x - 1 , x ∈ ( 0 , ∞ ) ( um , b ) θ U ( - ∞ , ∞ ) ( a ,∫∞−∞p(x∣θ)p(θ)dθ=∫bap(x∣θ)p(θ)dθ (a,b) f(x)=k,x∈(−∞,∞) f(x)=kx−1,x∈(0,∞) (a,b) , para que zero caia adequadamente fora desse intervalo, garantimos que os anteriores realmente usados sejam adequados ( Box e Tiao , p. 21). Portanto, se a distribuição anterior de for mas
estiver limitada, será como se , ou seja, . Para um exemplo concreto, é o que acontece em Stan : se nenhum prior é especificado para um parâmetro, ele recebe implicitamente um uniforme anterior em seu suporte e isso é tratado como uma multiplicação da probabilidade por uma constante.θ U(−∞,∞) θ ∼ U ( a , b ) p ( x ∣ θ ) p ( θ ) = p ( x ∣ θ ) k ∝ p ( x ∣ θ )(a,b) θ∼U(a,b) p(x∣θ)p(θ)=p(x∣θ)k∝p(x∣θ)
fonte
O posterior também pode não ser adequado. Se o prior é impróprio e a probabilidade é plana (porque não há observações significativas), o posterior é igual ao prior e também é impróprio.
Geralmente você tem algumas observações, e geralmente a probabilidade não é plana, portanto a posterior é adequada.
fonte