Como a prova de amostragem por rejeição faz sentido?

Estou fazendo um curso sobre métodos de Monte Carlo e aprendemos o método Rejection Sampling (ou Accept-Reject Sampling) na última aula. Existem muitos recursos na web que mostram a prova desse método, mas de alguma forma não estou convencido com eles.

Portanto, no Rejection Sampling, temos uma distribuição qual é difícil extrair amostras. Escolhemos uma distribuição fácil de amostrar e encontramos um coeficiente tal que . Em seguida, a partir de amostra de e para cada sorteio, , que também mostra um a partir de uma distribuição uniforme padrão . $f(x)$ $g(x)$ $c$ $f(x) \leq cg(x)$ $g(x)$ $x_i$ $u$ $U(u|0,1)$

A amostra é aceite se é e rejeitada de outro modo. $x_i$ $cg(x_i)u \leq f(x_i)$

As provas que encontrei geralmente apenas mostram que e param por aí. $p(x|Accept) = f(x)$

O que eu penso sobre este processo é que temos uma sequência de variáveis e a par corresponde à nossa -ésima amostra ( $x_1,Accept_1,x_2,Accept_2,...,x_n,Accept_n$ $x_i,Accept_i$ $x_i$ ) E se ele é aceito ( ). Sabemos que cada par é independentes umas das outras, de tal forma que: $Accept_i$ $x_i,Accept_i$

$P(x_1,Accept_1,x_2,Accept_2,...,x_n,Accept_n) = \prod\limits_{i=1}^n P(x_i,Accept_i)$

Para um par , sabemos que e $(x_i,Accept_i)$ $P(x_i) = g(x_i)$ . Podemos calcular prontamentemas não entendo como isso basta como prova. Precisamos mostrar que o algoritmo funciona, então acho que uma prova deve mostrar que a distribuição empricial das amostras aceitas converge paracomo. Quero dizer, comsendo o número de todas as amostras aceitas e rejeitadas: $P(Accept_i|x_i) = \frac{f(x_i)}{cg(x_i)}$ $p(x_i|Accept_i)$ $f(x)$ $n\rightarrow\infty$ $n$

como . $\frac{Number \hspace{1mm} of \hspace{1mm} samples \hspace{1mm} with \hspace{1mm} (A \leq x_i \leq B)}{Number \hspace{1mm} of \hspace{1mm} accepted \hspace{1mm} samples} \rightarrow \int_A^B f(x)dx$ $n\rightarrow\infty$

Estou errado com esse padrão de pensamento? Ou existe uma conexão entre a prova comum do algoritmo e isso?

desde já, obrigado

sampling monte-carlo rejection-sampling Ufuk Can Bicici
fonte

Respostas:

Você deve pensar no algoritmo como produzindo desenhos a partir de uma variável aleatória, para mostrar que o algoritmo funciona, basta mostrar que o algoritmo extrai da variável aleatória que você deseja.

Deixe e variáveis aleatórias escalares com pdfs e , respectivamente, onde é algo que já sabe como provar a partir. Também podemos saber que podemos ligar por onde . $X$ $Y$ $f_X$ $f_Y$ $Y$ $f_X$ $Mf_Y$ $M\ge1$

Agora formamos uma nova variável aleatória onde $A$ , assume o valorcom probabilidade $A | y \sim \text{Bernoulli } \left (\frac{f_X(y)}{Mf_Y(y)}\right )$ $1$ ecaso contrário. Isto representa o algoritmo 'aceitar' um empate de. $\frac{f_X(y)}{Mf_Y(y)}$ $0$ $Y$

Agora, rodamos o algoritmo e coletamos todos os sorteios de que são aceitos, vamos chamar essa variável aleatória . $Y$ $Z = Y|A=1$

Para mostrar que , para qualquer evento , devemos mostrar que . $Z \equiv X$ $E$ $P(Z \in E) =P(X \in E)$

Então, vamos tentar isso, primeiro use a regra de Bayes:

, $P(Z \in E) = P(Y \in E | A =1) = \frac{P(Y \in E \& A=1)}{P(A=1)}$

e a parte superior escrevemos como

\begin{aligned} P (Y \in E & A = 1) & = \int_{E} f_{Y, A} (y, 1) d y \\ = \int_{E} f_{A | Y} (1, y) f_{Y} (y) d y = \int_{E} f_{Y} (y) \frac{f_{X} (y)}{M f_{Y} (y)} d y = \frac{P (X \in E)}{M} . \end{aligned}

$\begin{align*}P(Y \in E \& A=1) &= \int_E f_{Y, A}(y,1) \, dy \\ &= \int_E f_{A|Y}(1,y)f_Y(y) \, dy =\int_E f_Y(y) \frac{f_X(y)}{Mf_Y(y)} \, dy =\frac{P(X \in E)}{M}.\end{align*}$

E então a parte inferior é simplesmente

, $P(A=1) = \int_{-\infty}^{\infty}f_{Y,A}(y,1) \, dy = \frac{1}{M}$

pelo mesmo raciocínio acima, configurando . $E=(-\infty, +\infty)$

E estes se combinam para dar , que é o que queríamos, . $P(X \in E)$ $Z \equiv X$

É assim que o algoritmo funciona, mas no final da sua pergunta você parece estar preocupado com uma idéia mais geral, ou seja, quando uma distribuição empírica converge para a distribuição amostrada? Esse é um fenômeno geral sobre qualquer amostra, se eu entendi corretamente.

Neste caso, deixe- ser iid variáveis aleatórias, todos com distribuição . Então, para qualquer evento , $X_1, \dots, X_n$ $\equiv X$ $E$ tem expectativapela linearidade da expectativa. $\frac{\sum_{i=1}^n1_{X_i \in E}}{n}$ $P(X \in E)$

Além disso, dadas as premissas adequadas, você pode usar a lei forte de grandes números para mostrar que a probabilidade empírica converge quase certamente para a verdadeira probabilidade.

Harri
fonte

Obrigado pela resposta. Você pode esclarecer como posso mostrar que a distribuição emprical converge para a distribuição alvo usando a Lei dos Grandes Números? É exatamente o que eu tento mostrar neste caso.

Ufuk Can Bicici

Glivenko-Cantelli: www2.imperial.ac.uk/~das01/MyWeb/M3S3/Handouts/...

Zen

A = 1

$A=1$

Y_{1}, A_{1}, Y_{2}, A_{2}, . . ., Y_{n}, A_{n}

$Y_1,A_1,Y_2,A_2,...,Y_n,A_n$

Y_{2}

$Y_2$

Y_{1}

$Y_1$

A_{1}

$A_1$

Y_{2}

$Y_2$

P (Y_{2})

$P(Y_2)$

P (A_{2} | Y_{2})

$P(A_2|Y_2)$

P (Y_{2})

$P(Y_2)$

P (A_{2} | Y_{2})

$P(A_2|Y_2)$

$x_i$ $x_{i+1}$

$A$

\begin{aligned} P (A) = & \int_{- \infty}^{\infty} d x \int_{0}^{\frac{f (x)}{c g (x)}} g (x) d u \\ = & \int_{- \infty}^{\infty} \frac{1}{c} f (x) d x \\ = & \frac{1}{c} . \end{aligned}

$\begin{aligned} P(A) =& \int_{-\infty}^{\infty}dx\int_0^{\frac{f(x)}{cg(x)}}g(x)du \\ =& \int_{-\infty}^{\infty}\frac{1}{c}f(x)dx \\ =& \frac{1}{c}. \end{aligned}$

\begin{aligned} f_{X} (x | A) = & \frac{f_{X} (x) \cdot P (A | x)}{P (A)} \\ = & \frac{g (x) \cdot \frac{f (x)}{c g (x)}}{\frac{1}{c}} \\ = & f (x) . \end{aligned}

$\begin{aligned} f_X(x|A) =& \frac{f_X(x) \cdot P(A|x)}{P(A)}\\ =& \frac{g(x) \cdot \frac{f(x)}{cg(x)}}{\frac{1}{c}} \\ =& f(x). \end{aligned}$

$A$ $x_i$ $x_i$

$X_i$ $i$ $f_{X_i}$ $X_i$ $A_i$ $i$ $X_\infty$ $X_\infty$

f_{X_{\infty}} (x) = P (A_{1}) f_{X_{1}} (x | A_{1}) + P (A_{2}) f_{X_{2}} (x | A_{2}) + \dots .

$f_{X_\infty}(x) = P(A_1) f_{X_1}(x|A_1) + P(A_2) f_{X_2}(x|A_2) + \dots.$

P (A_{1})

$P(A_1)$

\frac{1}{c}

$\frac{1}{c}$

f_{X_{1}} (x | A_{1})

$f_{X_1}(x|A_1)$

f (x)

$f(x)$

P (A_{2})

$P(A_2)$

(1 - \frac{1}{c}) \frac{1}{c}

$\left(1-\frac{1}{c}\right)\frac{1}{c}$

1 - \frac{1}{c}

$1-\frac{1}{c}$

X_{1}

$X_1$

X_{1}

$X_1$

X_{2}

$X_2$

$f_{X_2}(x|A_2)$ $f(x)$ $X_2$ $X_1$ $X_1$ $X_2$ $A_1^c$ $A_1^c$

\begin{aligned} f_{X_{2}} (x | A_{2}) = & \frac{P (A_{1}^{c}) f_{X_{2}} (x | A_{1}^{c}) P (A_{2} | X_{2} = x)}{P (A_{2})} \\ = & \frac{P (A_{1}^{c}) f_{X_{2}} (x | A_{1}^{c}) P (A_{2} | X_{2} = x)}{P (A_{1}^{c}) P (A_{2} | A_{1}^{c})} \\ = & \frac{f_{X_{2}} (x | A_{1}^{c}) P (A_{2} | X_{2} = x)}{P (A_{2} | A_{1}^{c})} \\ = & \frac{g (x) \cdot \frac{f (x)}{c g (x)}}{\frac{1}{c}} \\ = & f (x) . \end{aligned}

$\begin{aligned} f_{X_2}(x|A_2) =& \frac{P(A_1^c)f_{X_2}(x|A_1^c)P(A_2|X_2=x)}{P(A_2)} \\ =& \frac{P(A_1^c)f_{X_2}(x|A_1^c)P(A_2|X_2=x)}{P(A_1^c)P(A_2|A_1^c)} \\ =& \frac{f_{X_2}(x|A_1^c)P(A_2|X_2=x)}{P(A_2|A_1^c)} \\ =& \frac{g(x) \cdot \frac{f(x)}{cg(x)}}{\frac{1}{c}} \\ =& f(x). \end{aligned}$

\begin{aligned} f_{X_{\infty}} (x) = & P (A_{1}) f (x) + P (A_{2}) f (x) + \dots \\ = & (P (A_{1}) + P (A_{2}) + \dots) f (x) \\ = & (\frac{1}{c} + (1 - \frac{1}{c}) \frac{1}{c} + {(1 - \frac{1}{c})}^{2} \frac{1}{c} + \dots) f (x) \\ = & f (x) . \end{aligned}

$\begin{aligned} f_{X_\infty}(x) =& P(A_1) f(x) + P(A_2) f(x) + \dots \\ =& (P(A_1) + P(A_2) + \dots) f(x) \\ =& \left(\frac{1}{c} + \left(1-\frac{1}{c}\right)\frac{1}{c} + \left(1-\frac{1}{c}\right)^2\frac{1}{c} + \dots\right) f(x) \\ =& f(x). \end{aligned}$

P (A_{1}) + P (A_{2}) + \dots

$P(A_1) + P(A_2) + \dots$

i

$i$

Cosyn
fonte