"Esquecimento" do prior no cenário bayesiano?

9

É bem conhecido que, como você tem mais provas (dizer na forma de maior para n exemplos IID), a Bayesian antes se "esquecido", e mais da inferência é impactado pela evidência (ou a probabilidade).nn

É fácil vê-lo em vários casos específicos (como Bernoulli com Beta anterior ou outro tipo de exemplo) - mas existe uma maneira de vê-lo no caso geral com e alguns p ( μ ) anteriores ?x1,,xnp(x|μ)p(μ)

Edição: Eu estou supondo que não pode ser mostrado no caso geral para qualquer anterior (por exemplo, um ponto de massa anterior manteria o posterior uma massa de ponto). Mas talvez haja certas condições sob as quais um prior é esquecido.

Aqui está o tipo de "caminho" em que estou pensando em mostrar algo assim:

Suponha que o espaço do parâmetro seja e que p ( θ ) e q ( θ ) sejam dois anteriores que colocam a massa de probabilidade diferente de zero em todos os Θ . Portanto, os dois cálculos posteriores para cada valor anterior a:Θp(θ)q(θ)Θ

p(θ|x1,,xn)=ip(xi|θ)p(θ)θip(xi|θ)p(θ)dθ

e

q(θ|x1,,xn)=ip(xi|θ)q(θ)θip(xi|θ)q(θ)dθ

pq

p(θ|x1,,xn)/q(θ|x1,,xn)=p(θ)θip(xi|θ)q(θ)dθq(θ)θip(xi|θ)p(θ)dθ

n1θ

bayesianOrFrequentist
fonte
11
Para alguma intuição, observe que a probabilidade varia com o tamanho da amostra, enquanto a anterior não.
Macro
@ Macro, obrigado, eu também tive essa intuição, mas não pude ir além. Veja minhas edições acima.
precisa saber é o seguinte
Os primeiros capítulos do livro Bayesian Nonparametrics de Ghosh e Ramamoorthi descrevem o tipo de coisa que você está falando (inicialmente em um cenário paramétrico, depois não paramétrico); Ele está disponível gratuitamente no Springer on-line, se você estiver em uma instituição apropriada. Existem várias maneiras de formalizar a falta de dependência do anterior assintoticamente, mas é claro que existem algumas condições de regularidade.
cara,
Observe que a proporção posterior é apenas proporcional à proporção anterior, portanto, a probabilidade ou a razão de evidência realmente não influenciam isso.
probabilityislogic

Respostas:

3

Apenas uma resposta áspera, mas esperamos que intuitiva.

  1. logP(θ|x1,,xn)=logP(θ)i=1nlogP(xi|θ)Cn
    Cn>0
    Sn=logP(θ)i=1nlogP(xi|θ)
  2. D>0logP(θ)D

  3. SnDD/Sn

É claro que provas rigorosas precisam enfrentar os aspectos técnicos (e podem ser muito difíceis), mas a configuração acima é IMHO a parte muito básica.

Pedro A. Ortega
fonte
0

Estou um pouco confuso com o que significam as afirmações que o "prior é esquecido" e "a maior parte da inferência é impactada pela evidência". Suponho que você queira dizer que, à medida que a quantidade de dados aumenta, o (sequência de) estimador (es) se aproxima do valor real do parâmetro, independentemente do nosso anterior.

θ0

E[θ^|θ0]θ0Var(θ^)p0

A convergência não depende da forma específica do prior, mas apenas que a distribuição posterior obtida do prior e a probabilidade satisfazem as condições de regularidade.

A condição de regularidade mais importante mencionada em Gelman et al é que a probabilidade de ser uma função contínua do parâmetro e o valor real do parâmetro estar no interior do espaço do parâmetro. Além disso, como você observou, o posterior deve ser diferente de zero em uma vizinhança aberta do valor verdadeiro do valor verdadeiro do parâmetro. Normalmente, seu prior deve ser diferente de zero em todo o espaço de parâmetros.

Caburke
fonte
obrigado, muito perspicaz. Na verdade, eu esperava um resultado que nem se relacionasse com o valor do parâmetro "true". Apenas mostrando que tecnicamente, à medida que você tem mais evidências, a parte posterior a ser obtida é a mesma, independentemente da anterior com a qual você começou. Vou fazer algumas edições para refletir isso.
bayesianOrFrequentist
@bayesianOrFrequentist Veja o chamado teorema do limite central bayesiano .
Stéphane Laurent