Compreendendo as Distribuições Preditivas Bayesianas

9

Estou fazendo um curso de Introdução à Bayes e estou tendo dificuldades para entender as distribuições preditivas. Entendo por que eles são úteis e estou familiarizado com a definição, mas há algumas coisas que não entendo direito.

1) Como obter a distribuição preditiva correta para um vetor de novas observações

Suponha que tenhamos construído um modelo de amostragem para os dados e um . Suponha que as observações sejam condicionalmente independentes, dadas . $p(y_i | \theta)$ $p(\theta)$ $y_i$ $\theta$

Observamos alguns dados e atualizamos nosso para o . $\mathcal{D} = \{y_1, y_2, \, ... \, , y_k\}$ $p(\theta)$ $p(\theta | \mathcal{D})$

Se quisermos prever um vetor de novas observações , eu acho que deveríamos tentar obter a previsão posterior usando essa fórmula que não é igual a então as observações previstas não são independentes, certo? $\mathcal{N} = \{\tilde{y}_1, \tilde{y}_2, \, ... \, , \tilde{y}_n\}$

p (N | D) = \int p (θ | D) p (N | θ) d θ = \int p (θ | D) \prod_{i = 1}^{n} p ({\tilde{y}}_{i} | θ) d θ,

$p(\mathcal{N} | \mathcal{D}) = \int p(\theta | \mathcal{D}) p ( \mathcal{N} | \theta) \, \mathrm{d} \theta = \int p(\theta | \mathcal{D}) \prod_{i=1}^n p(\tilde{y}_i | \theta) \, \mathrm{d} \theta,$

\prod_{i = 1}^{n} \int p (θ | D) p ({\tilde{y}}_{i} | θ) d θ,

$\prod_{i=1}^n \int p(\theta | \mathcal{D}) p(\tilde{y}_i | \theta) \, \mathrm{d} \theta,$

Diga isso Beta ( ) Binomial ( ) para um fixo . Nesse caso, se eu quisesse simular 6 novos , se eu entendesse isso corretamente, seria errado simular 6 desenhos independentemente da distribuição beta-binomial que corresponde ao preditivo posterior para uma única observação. Isso está correto? Não sei como interpretar que as observações não são independentes marginalmente, e não tenho certeza se entendi corretamente. $\theta | \mathcal{D} \sim$ $a,b$ $p(y_i | \theta) \sim$ $n, \theta$ $n$ $\tilde{y}$

Simulando a partir de preditivos posteriores

Muitas vezes, quando simulamos dados do preditivo posterior, seguimos este esquema:

Para de 1 a : $b$ $B$

1) Amostra de . $\theta^{(b)}$ $p(\theta | \mathcal{D})$

2) Em seguida, simule novos dados de . $\mathcal{N}^{(b)}$ $p(\mathcal{N} | \theta^{(b)})$

Não sei como provar que esse esquema funciona, embora pareça intuitivo. Além disso, isso tem um nome? Tentei procurar uma justificativa e tentei nomes diferentes, mas não tive sorte.

Obrigado!

bayesian prediction Fred L.
fonte

Fiz uma pergunta semelhante em stats.stackexchange.com/questions/72570/…, mas parece que o seu recebeu mais votos até agora.

John

4

Suponha que sejam condicionalmente independentes, dado que . Então, em que a primeira igualdade segue a lei da probabilidade total, a segunda segue a regra do produto e a terceira a independência condicional assumida: dado o valor de $X_1,\dots,X_n,X_{n+1}$ $\Theta=\theta$

f_{X_{n + 1} ∣ X_{1}, \dots, X_{n}} (x_{n + 1} ∣ x_{1}, \dots, x_{n}) = \int f_{X_{n + 1}, Θ ∣ X_{1}, \dots, X_{n}} (x_{n + 1}, θ ∣ x_{1}, \dots, x_{n}) d θ

$f_{X_{n+1}\mid X_1,\dots,X_n}(x_{n+1}\mid x_1,\dots,x_n) = \int f_{X_{n+1},\Theta\mid X_1,\dots,X_n}(x_{n+1},\theta\mid x_1,\dots,x_n)\,d\theta$

= \int f_{X_{n + 1} ∣ Θ, X_{1}, \dots, X_{n}} (x_{n + 1} ∣ θ, x_{1}, \dots, x_{n}) f_{Θ ∣ X_{1}, \dots, X_{n}} (θ ∣ x_{1}, \dots, x_{n}) d θ

$= \int f_{X_{n+1}\mid\Theta,X_1,\dots,X_n}(x_{n+1}\mid\theta,x_1,\dots,x_n) f_{\Theta\mid X_1,\dots,X_n}(\theta\mid x_1,\dots,x_n) \, d\theta$

= \int f_{X_{n + 1} ∣ Θ} (x_{n + 1} ∣ θ) f_{Θ ∣ X_{1}, \dots, X_{n}} (θ ∣ x_{1}, \dots, x_{n}) d θ,

$= \int f_{X_{n+1}\mid\Theta}(x_{n+1}\mid\theta) f_{\Theta\mid X_1,\dots,X_n}(\theta\mid x_1,\dots,x_n) \, d\theta \, ,$

Θ

$\Theta$ , não precisamos dos valores de para determinar a distribuição de .

X_{1}, \dots, X_{n}

$X_1,\dots,X_n$

X_{n + 1}

$X_{n+1}$

O esquema de simulação está correto: para , draw da distribuição de , e desenhe da distribuição de . Isso fornece uma amostra da distribuição de . $i=1,\dots,N$ $\theta^{(i)}$ $\Theta\mid X_1=x_1,\dots,X_n=x_n$ $x_{n+1}^{(i)}$ $X_{n+1}\mid\Theta=\theta^{(i)}$ $\{x_{n+1}^{(i)}\}_{i=1}^N$ $X_{n+1}\mid X_1=x_1,\dots,X_n=x_n$

zen
fonte

E se você estiver obtendo a previsão posterior em vários períodos? Eu tenho usado para cada , mas posso ver por que pode fazer sentido redesenhar um novo theta.

θ^{(i)}

$\theta^{\left(i\right)}$

x_{n + j}

$x_{n+j}$

John John

2

Tentarei repassar a intuição por trás da geração da distribuição preditiva posterior passo a passo.

Vamos ser um vetor de dados observados que vêm de uma distribuição de probabilidade e deixe ser um vetor de futuro (ou out-of-sample) valores que queremos prever. Assumimos que vem da mesma distribuição que . Pode ser tentador usar nossa melhor estimativa de - como a estimativa MLE ou MAP - para obter informações sobre essa distribuição. No entanto, isso inevitavelmente ignoraria nossa incerteza sobre . Assim, a maneira apropriada de proceder é calcular a média da distribuição posterior de , ou seja, . Observe também que $y$ $p(y|\theta)$ $\tilde y$ $\tilde y$ $y$ $\theta$ $\theta$ $\theta$ $p(\theta|y)$ $\tilde y$ é independente de dado , pois supõe-se que seja uma amostra independente desenhada da mesma distribuição que . Portanto, $y$ $\theta$ $y$

p (\tilde{y} | θ, y) = \frac{p (\tilde{y}, y | θ) p (θ)}{p (θ, y)} = \frac{p (\tilde{y} | θ) p (y | θ) p (θ)}{p (y | θ) p (θ)} = p (\tilde{y} | θ) .

$\displaystyle p(\tilde y| \theta, y) = \frac{p(\tilde y, y|\theta )p(\theta)}{p(\theta, y)} = \frac{p(\tilde y|\theta )p(y |\theta) p(\theta)}{p(y| \theta)p(\theta)} = p(\tilde y |\theta).$

A distribuição preditiva posterior de é assim, $\tilde y$

p (\tilde{y} | y) = \int_{Θ} p (\tilde{y} | θ, y) p (θ | y) d θ = \int_{Θ} p (\tilde{y} | θ) p (θ | y) d θ

onde é o suporte de . $\Theta$ $\theta$

Agora, como obtemos as amostras de ? O método que você descreve é chamado de método de composição , que funciona da seguinte maneira: $p(\tilde y|y)$

para s = 1,2, ..., S do

desenha de $\theta^{(s)}$ $p(\theta|y)$

desenha de $\tilde y^{(s)}$ $p(\tilde y|\theta^{(s)})$

onde, na maioria das situações, já temos os desenhos de , de modo que apenas o segundo passo é necessário. $p(\theta|y)$

A razão pela qual isso funciona é bastante simples: primeiro observe que . Assim, amostrando um vetor de parâmetro de e, usando esse vetor para amostrar de produz amostras da distribuição conjunta . Segue que, os valores amostrados são amostras da distribuição marginal, . $p(\tilde y, \theta | y) = p(\tilde y| \theta, y)p(\theta | y)$ $\theta^{(s)}$ $p(\theta|y)$ $\tilde y^{(s)}$ $p(\tilde y | \theta^{(s)}) = p(\tilde y | \theta^{(s)}, y)$ $p(\tilde y, \theta|y)$ $\tilde y^{(s)}, s=1,2,...,S$ $p(\tilde y|y)$

baruuum
fonte

1

Para responder à sua primeira pergunta: sim, as observações não são independentes se você não souber o valor de . Digamos que você tenha observado que tem um valor bastante extremo. Pode ser uma indicação de que o valor desconhecido de si é extremo e, portanto, você deve esperar que outras observações sejam extremas também. $\theta$ $\tilde{y}_1$ $\theta$

hr0nix
fonte

Compreendendo as Distribuições Preditivas Bayesianas

Respostas: