Eu tenho tentado entender a idéia de anteriores conjugados nas estatísticas bayesianas por um tempo, mas simplesmente não entendo. Alguém pode explicar a idéia nos termos mais simples possíveis, talvez usando o "prior gaussiano" como exemplo?
fonte
Eu tenho tentado entender a idéia de anteriores conjugados nas estatísticas bayesianas por um tempo, mas simplesmente não entendo. Alguém pode explicar a idéia nos termos mais simples possíveis, talvez usando o "prior gaussiano" como exemplo?
A prévia de um parâmetro quase sempre terá alguma forma funcional específica (escrita em termos de densidade, geralmente). Digamos que nos restringimos a uma família específica de distribuições; nesse caso, escolher o nosso anterior se reduz a escolher os parâmetros dessa família.
Por exemplo, considere um modelo normal . Para simplificar, vamos também como conhecido. Esta parte do modelo - o modelo para os dados - determina a função de probabilidade.
Para completar nosso modelo bayesiano, aqui precisamos de um prior para .
Como mencionado acima, geralmente podemos especificar alguma família distributiva para o nosso anterior para e, em seguida, temos apenas que escolher os parâmetros dessa distribuição (por exemplo, muitas vezes as informações anteriores podem ser bastante vagas - como aproximadamente onde queremos que a probabilidade se concentre - em vez de uma forma funcional muito específica, e podemos ter liberdade suficiente para modelar o que queremos, escolhendo os parâmetros - digamos, para corresponder a uma média e variação anteriores).
Se acontecer que o posterior para é da mesma família que o anterior, então esse anterior é considerado "conjugado".
(O que faz com que seja conjugado é a maneira como combina com a probabilidade)
Portanto, neste caso, vamos usar um gaussiano anterior para (digamos μ ∼ N ( θ , τ 2 ) ). Se fizermos isso, vemos que o posterior para µ também é gaussiano. Consequentemente, o prior gaussiano foi um conjugado anterior para o nosso modelo acima.
Isso é tudo o que realmente existe - se o posterior for da mesma família do anterior, é um conjugado anterior.
Em casos simples, você pode identificar um conjugado antes pela inspeção da probabilidade. Por exemplo, considere uma probabilidade binomial; eliminando as constantes, parece uma densidade beta em ; e por causa da forma como os poderes de p e ( 1 - p ) combinam, ele vai multiplicar por um beta antes de dar também um produto de potências de p e ( 1 - p ) ... para que possamos ver imediatamente a partir da probabilidade de que o beta será um conjugado anterior para p na probabilidade binomial.
No caso gaussiano, é mais fácil ver que isso acontecerá considerando as densidades de log e a probabilidade de log; a probabilidade logarítmica será quadrática em e a soma de dois quadráticos é quadrática; portanto, uma probabilidade quadrática log-prior + log quadrática fornece um posterior quadrático (é claro que cada um dos coeficientes do termo de ordem mais alta será negativo).
Se o seu modelo pertencer a uma família exponencial , isto é, se a densidade da distribuição for da forma
A escolha da medida dominante é determinante para a família de priores. Se, por exemplo, houver uma probabilidade média normal em como na resposta de Glen_b , escolher a medida de Lebesgue como a medida dominante leva à conjugação dos anteriores normais. Se, em vez disso, se escolher como medida dominante, os anteriores conjugados estarão dentro da família de distribuições com densidades
Fora dessa configuração de família exponencial, não há uma família de distribuições não trivial com um suporte fixo que permita anteriores conjugados. Isso é conseqüência do lema de Darmois-Pitman-Koopman .
Eu gosto de usar a noção de um "kernel" de uma distribuição. É aqui que você sai apenas nas partes que dependem do parâmetro. Alguns exemplos simples.
Núcleo normalp(μ|a,b)=K−1×exp(aμ2+bμ)
Onde K é a "constante de normalização" K=∫exp(aμ2+bμ)dμ=π−a−−−√exp(−b24a)
A conexão com os parâmetros padrão de média / variância éE(μ|a,b)=−b2a eVar(μ|a,b)=−12a
Kernel betap(θ|a,b)=K−1×θa(1−θ)b
Onde K=∫θa(1−θ)bdθ=Beta(a+1,b+1)
Quando olhamos para a função de probabilidade, podemos fazer a mesma coisa e expressá-la em "forma de kernel". Por exemplo, com dados iid
Para algumas constantesQ e algumas funções f(μ) . Se pudermos reconhecer essa função como um kernel, podemos criar um conjugado anterior para essa probabilidade. Se tomarmos a probabilidade normal com variação de unidade, o acima será parecido com
p(D|μ)=∏i=1np(xi|μ)=∏i=1n12π−−√exp(−(xi−μ)22)=[∏i=1n12π−−√]×∏i=1nexp(−(xi−μ)22)=(2π)−n2×exp(−∑i=1n(xi−μ)22)=(2π)−n2×exp(−∑i=1nx2i−2xiμ+μ22)=(2π)−n2×exp(−∑i=1nx2i2)×exp(μ∑i=1nxi−μ2n2)=Q×exp(aμ2+bμ)
wherea=−n2 and b=∑ni=1xi and Q=(2π)−n2×exp(−∑ni=1x2i2)
This likelihood function has the same kernel as the normal distribution forμ , so a conjugate prior for this likelihood is also the normal distribution.
p(μ|a0,b0)=K−10exp(a0μ2+b0μ)
The posterior is then
p(μ|D,a0,b0)∝K−10exp(a0μ2+b0μ)×Q×exp(aμ2+bμ)=K−10×Q×exp([a+a0]μ2+[b+b0]μ)∝exp([a+a0]μ2+[b+b0]μ)
Showing that the posterior is also a normal distribution, with updated parameters from the prior using the information in the data.
In some sense a conjugate prior acts similarly to adding "pseudo data" to the data observed, and then estimating the parameters.
fonte
Para uma determinada família de distribuiçãoDl i k da probabilidade (por exemplo, Bernoulli),
se o prior for da mesma família de distribuiçãoDp r i como o posterior (por exemplo, Beta),
entãoDp r i e Dl i k are conjugate distribution families and the prior is called a conjugate prior for the likelihood function.
Note:p(θ|x)posterior∼p(x|θ)likelihood⋅p(θ)prior
fonte