Posterior muito diferente do anterior e da probabilidade

21

Se o anterior e a probabilidade são muito diferentes um do outro, às vezes ocorre uma situação em que o posterior é semelhante a nenhum deles. Veja, por exemplo, esta imagem, que usa distribuições normais.

Comportamento posterior

Embora isso seja matematicamente correto, não parece estar de acordo com minha intuição - se os dados não coincidirem com minhas crenças fortemente defendidas ou com os dados, eu esperaria que nenhum intervalo se saísse bem e esperaria um plano posterior posterior. toda a faixa ou talvez uma distribuição bimodal em torno do anterior e da probabilidade (não sei o que faz mais sentido lógico). Eu certamente não esperaria um traseiro apertado em torno de um intervalo que não corresponde nem às minhas crenças anteriores nem aos dados. Entendo que, à medida que mais dados são coletados, o posterior se moverá em direção à probabilidade, mas nessa situação parece contra-intuitivo.

Minha pergunta é: como minha compreensão dessa situação é falha (ou é falha). A posterior é a função `correta 'para esta situação. E se não, de que outra forma poderia ser modelado?

Para completar, o prior é dado como e a probabilidade como .N(μ=1.5,σ=0,4)N(μ=6.1,σ=0,4)

EDIT: Olhando para algumas das respostas dadas, sinto que não expliquei a situação muito bem. Meu argumento foi que a análise bayesiana parece produzir um resultado não-intuitivo, dadas as suposições do modelo. Minha esperança era que o posterior de alguma forma "explicasse" talvez más decisões de modelagem, o que, quando pensado, definitivamente não é o caso. Vou expandir isso na minha resposta.

Rónán Daly
fonte
2
Isso significaria simplesmente que você não pode assumir a normalidade do posterior. Se você assumir que o posterior é normal, isso seria realmente correto.
PascalVKooten
Eu não fiz nenhuma suposição na parte posterior, apenas a anterior e a probabilidade. De qualquer forma, a forma da distribuição parece irrelevante aqui - eu poderia tê-las desenhado manualmente e o mesmo posterior se seguiria.
Rónán Daly
Só estou dizendo que você jogaria fora sua crença neste posterior se não assumir que o posterior pode ser normal. Considerando dados normais anteriores e normais, um posterior normal seria assim. Talvez imagine dados pequenos, algo assim pode realmente ocorrer na realidade.
22814 PascalVKooten
1
Esta figura está correta? Parece que a probabilidade anterior deve estar muito próxima de 0, pois nunca se sobrepõem. Estou tendo problemas para ver como o posterior pode espiar lá, pois o peso do anterior é muito próximo de 0 lá. Estou esquecendo de algo? ×
Luca
1
@Luca Você está esquecendo a re-normalização. O produto do anterior e da probabilidade é próximo de zero, sim - mas quando você o normaliza novamente para que ele se integre a 1 novamente, isso se torna irrelevante.
Pat

Respostas:

5

Sim, essa situação pode surgir e é um recurso de suas premissas de modelagem, especificamente normalidade no modelo anterior e de amostragem (probabilidade). Se você tivesse escolhido uma distribuição de Cauchy para o seu prior, o posterior pareceria muito diferente.

prior = function(x) dcauchy(x, 1.5, 0.4)
like = function(x) dnorm(x,6.1,.4)

# Posterior
propto = function(x) prior(x)*like(x)
d = integrate(propto, -Inf, Inf)
post = function(x) propto(x)/d$value

# Plot
par(mar=c(0,0,0,0)+.1, lwd=2)
curve(like, 0, 8, col="red", axes=F, frame=T)
curve(prior, add=TRUE, col="blue")
curve(post, add=TRUE, col="seagreen")
legend("bottomleft", c("Prior","Likelihood","Posterior"), col=c("blue","red","seagreen"), lty=1, bg="white")

Modelo de amostragem normal anterior de Cauchy

jaradniemi
fonte
Obrigado pela sua resposta @jaradniemi, você acha que um prior de Cauchy sempre evitaria a situação específica dada na pergunta?
Rónán Daly
1
Sim. Priores de cauda geralmente pesados ​​permitem que os dados sobrecarregem mais facilmente o anterior.
jaradniemi
2
jaradniemi, pode ser que sim, mas se você diz que não deseja que o seu anterior influencie o posterior, por que você escolhe um prior informativo em primeiro lugar? Parece que você está sugerindo a escolha de um cauchy, porque parece informativo, mas na verdade não é.
Florian Hartig
1
Se o anterior e a probabilidade concordam, você obtém o aumento desejado na precisão do anterior para o posterior e, portanto, o anterior é informativo. Mas escolher um prior de cauda pesada permite que a probabilidade supere facilmente o prior quando os dois discordarem.
21416 jaradniemi
2

Eu discordo um pouco das respostas dadas até agora - não há nada de estranho nessa situação. A probabilidade é assintoticamente normal de qualquer maneira, e um anterior normal não é incomum. Se você juntar as duas coisas, com o fato de que prévia e probabilidade não dão a mesma resposta, temos a situação de que estamos falando aqui. Eu descrevi isso abaixo com o código por jaradniemi.

Mencionamos em 1 que a conclusão normal de tal observação seria que: a) o modelo está estruturalmente errado; b) os dados estão errados; c) o anterior está errado. Mas algo está errado, com certeza, e você também verá isso se fizer algumas verificações preditivas posteriores, o que deve ser feito de qualquer maneira.

1 Hartig, F.; Dyke, J .; Hickler, T .; Higgins, SI; O'Hara, RB; Scheiter, S. & Huth, A. (2012) Conectando modelos dinâmicos de vegetação a dados - uma perspectiva inversa. J. Biogeogr., 39, 2240-2252. http://onlinelibrary.wiley.com/doi/10.1111/j.1365-2699.2012.02745.x/abstract

prior = function(x) dnorm(x,1,.3)
like = function(x) dnorm(x,-1,.3)

# Posterior
propto = function(x) prior(x)*like(x)
d = integrate(propto, -Inf, Inf)
post = function(x) propto(x)/d$value

# Plot
par(mar=c(0,0,0,0)+.1, lwd=2)
curve(like, -2, 2, col="red", axes=F, frame=T, ylim = c(0,2))
curve(prior, add=TRUE, col="blue")
curve(post, add=TRUE, col="seagreen")
legend("bottomleft", c("Prior","Likelihood","Posterior"), col=c("blue","red","seagreen"), lty=1, bg="white")

insira a descrição da imagem aqui

Florian Hartig
fonte
2

Eu sinto que a resposta que eu estava procurando quando se tratou dessa questão é melhor resumida por Lesaffre e Lawson em Bioestatística Bayesiana

A precisão posterior é a soma da precisão anterior e da amostra, ou seja:

1σ2=w0+w1
μσ

O que isso resume para mim, e é esboçado em outras respostas, é que o caso de modelar priors normais com probabilidade normal pode resultar em uma situação em que a posterior é mais precisa do que qualquer outra. Isso é contra-intuitivo, mas é uma consequência especial da modelagem desses elementos dessa maneira.

AWP
fonte
Isso generaliza em maior dimensão com a matriz Fisher. O hessiano da probabilidade logarítmica da distribuição posterior próxima ao seu pico é a soma das covariâncias inversas anterior e da probabilidade. O inverso dessa soma é a covariância do posterior. Como são adicionadas duas matrizes positivas (semi) definidas (covariâncias inversas), é matematicamente garantido que a precisão do posterior excederá a das distribuições de probabilidade anterior ou de probabilidade. Este é um resultado universal na estrutura bayesiana.
T3am5hark
2

X1X0 0μN(1.6,0,42)X1N(μ,0,42)X1X10,42+0,42=0,562ϕ(-(6.1-1.6)/0,56)=9,310-16μ

X0 0N(μ,0,42)X0 0X0 0X1|X1-X0 0|>6.1-1.6

X0 0X1

Jarle Tufto
fonte
1

Depois de pensar sobre isso por um tempo, minha conclusão é que, com suposições ruins de modelagem, o posterior pode ser um resultado que não concorda com crenças anteriores ou com a probabilidade. A partir disso, o resultado natural é que o posterior não é , em geral, o fim da análise. Se o posterior deve ajustar aproximadamente os dados ou deve ser difuso entre o anterior e a probabilidade (neste caso), isso deve ser verificado após o fato, provavelmente com um teste preditivo posterior ou algo assim semelhante. Incorporar isso ao modelo parece exigir a capacidade de colocar probabilidades em declarações probabilísticas, o que não acho possível.

Rónán Daly
fonte
sim, eu concordo, ver a minha resposta mais detalhada
Florian Hartig
0

Eu acho que essa é realmente uma pergunta realmente interessante. Tendo dormido, acho que tenho uma facada na resposta. A questão principal é a seguinte:

  • Você tratou a probabilidade como um pdf gaussiano. Mas não é uma distribuição de probabilidade - é uma probabilidade! Além do mais, você não rotulou seu eixo claramente. Essas coisas combinadas confundiram tudo o que se segue.

μσP(μ|μ,σ)μσP(X|μ,σ)XP(μ|X,σ,μ,σ)μ

μP(X|μ)

P(μ|μ,σ)=exp(-(μ-μ)22σ2)12πσ2

P(X|μ,σ)=Eu=1Nexp(-(xEu-μ)22σ2)12πσ2

σ2=σ2/Nσ2NX

Portanto, o anterior e a probabilidade são igualmente informativos. Por que o bimodal posterior não é? Isso ocorre devido às suas suposições de modelagem. Você assumiu implicitamente uma distribuição normal da maneira como ela é configurada (normal anterior, probabilidade normal) e isso restringe o posterior a fornecer uma resposta unimodal. Essa é apenas uma propriedade das distribuições normais, que você incorporou ao problema usando-as. Um modelo diferente não teria necessariamente feito isso. Tenho a sensação (embora ainda não haja uma prova) de que uma distribuição cauchy pode ter uma probabilidade multimodal e, portanto, uma posterior multimodal.

Portanto, temos que ser unimodais, e o anterior é tão informativo quanto a probabilidade. Sob essas restrições, a estimativa mais sensata começa a parecer um ponto diretamente entre a probabilidade e a anterior, pois não temos uma maneira razoável de dizer em que acreditar. Mas por que o posterior fica mais apertado?

σμσσσμ

(Uma maneira de visualizá-lo pode ser imaginar estimar a média de um gaussiano, com variação conhecida, usando apenas dois pontos de amostra. Se os dois pontos de amostra forem separados por muito mais do que a largura do gaussiano (ou seja, eles estão fora nas caudas), então há fortes evidências de que a média realmente está entre elas. Mudar a média um pouco dessa posição causará uma queda exponencial na probabilidade de uma amostra ou outra.)

Em resumo, a situação que você descreveu é um pouco estranha e, ao usar o modelo, você incluiu algumas suposições (por exemplo, unimodalidade) no problema que você não sabia que tinha. Mas, caso contrário, a conclusão está correta.

Pat
fonte
μσσμ