Intuição da constante de normalização bayesiana

8

No problema de triagem de mamografia comumente mencionado, com uma probabilidade de triagem de 80%, um valor anterior a 10% e uma taxa de falsos positivos de 50%, ou suas variantes, é fácil explicar que a probabilidade condicional posterior de uma triagem positiva indicar um câncer está presente é de apenas 15%. Isso é mostrado com mais facilidade por contagens, com n = 1000, casos de câncer verdadeiros = 100, cânceres detectados = 80 e falsos positivos = 450. Então a probabilidade de uma triagem positiva indicar um câncer presente é verdadeiros positivos / (verdadeiros positivos + falsos positivos) ou 80 / (100 + 450) = 0,145 ou 15%.

A intuição é que os verdadeiros positivos são condicionados à soma dos verdadeiros e falsos positivos, porque a soma dos verdadeiros e falsos positivos constitui um subconjunto de todos os resultados. Isso ocorre porque os falsos negativos e os verdadeiros negativos são excluídos do cálculo e, portanto, o conjunto condicional é um subconjunto.

Se mudarmos o problema para o caso contínuo com uma probabilidade binomial e um beta anterior, a constante de normalização se tornará integral, como no verdadeiro termo positivo (p = proporção)

\int_{0}^{1} (\begin{matrix} n \\ x \end{matrix}) p_{}^{x} {(1 - p)}^{n - x} \frac{Γ (a + b)}{Γ (a) Γ (b)} p_{}^{a - 1} {(1 - p_{})}^{b - 1} d p

$\int_0^1 {\left( {\begin{array}{*{20}{c}}n\\x\end{array}} \right)p_{}^x{{(1 - p)}^{n - x}}\frac{{\Gamma (a + b)}}{{\Gamma (a)\Gamma (b)}}p_{}^{a - 1}{{(1 - {p_{}})}^{b - 1}}} dp % MathType!MTEF!2!1!+- % feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn % hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr % 4rNCHbGeaGqiVu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq-Jc9 % vqaqpepm0xbba9pwe9Q8fs0-yqaqpepae9pg0FirpepeKkFr0xfr-x % fr-xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaaeaaaaaaaaa8 % qadaWdXaqaamaabmaapaqaauaabeqaceaaaeaapeGaamOBaaWdaeaa % peGaamiEaaaaaiaawIcacaGLPaaacaWGWbWaa0baaSqaaaqaaiaadI % haaaGccaGGOaGaaGymaiabgkHiTiaadchacaGGPaWaaWbaaSqabeaa % caWGUbGaeyOeI0IaamiEaaaak8aadaWcaaqaaiabfo5ahjaacIcaca % WGHbGaey4kaSIaamOyaiaacMcaaeaacqqHtoWrcaGGOaGaamyyaiaa % cMcacqqHtoWrcaGGOaGaamOyaiaacMcaaaWdbiaadchadaqhaaWcba % aabaGaamyyaiabgkHiTiaaigdaaaGccaGGOaGaaGymaiabgkHiTiaa % dchadaWgaaWcbaaabeaakiaacMcadaahaaWcbeqaaiaadkgacqGHsi % slcaaIXaaaaaqaaiaaicdaaeaacaaIXaaaniabgUIiYdGccaWGKbGa % amiCaaaa!6018!$

e um termo semelhante para os falsos positivos.

O que não está claro, no entanto, é como reafirmar a idéia de um subconjunto no caso contínuo, e não consigo encontrar ninguém que faça isso. Em vez disso, encontra-se a linguagem em que 1) essa integral fornece a constante para fazer o cálculo necessário para ter uma distribuição de probabilidade definida no intervalo [0, 1] ou 2) que a proporcionalidade é invocada e o valor da integral não é necessário para encontre o posterior, especialmente usando o MCMC, ou 3) a integral é a probabilidade da evidência. Essa última explicação parece mais próxima da idéia de um subconjunto, mas não está clara e explicitamente conectada.

Estou escrevendo uma introdução intuitiva ao teorema de Bayes e quero continuar a idéia intuitiva de um subconjunto para a probabilidade condicional que define o posterior. Então, preciso de uma linguagem para explicar como essa integral é apenas a reafirmação contínua do subconjunto no caso dos números discretos.

Alguma sugestão?

normalization bayes marginal Haynes
fonte

Verifique stats.stackexchange.com/questions/129666/…

Tim

4

Eu precisava fazer isso para um curso que estou preparando, então criei este site de demonstração: Uma demonstração do teorema de Bayes como "selecionando um subconjunto" no caso binomial (certifique-se de ocultar as barras de ferramentas, no canto inferior direito). Basicamente, se você mostrar a distribuição conjunta - que é apenas - poderá ver os "subconjuntos" da distribuição conjunta que você precisa selecionar, quais são esses valores que correspondem a (o que você observou). $p(y\mid\theta)p(\theta)$ $\theta$ $Y=y$

O código fonte dessa página pode ser encontrado aqui: Rmarkdown source for page .

(Eu usei para a probabilidade binomial em vez de porque parece confuso ...) $\theta$ $p$ $p(p)$

richarddmorey
fonte

2

Além das interpretações mencionadas, você pode pensar na constante de normalização como o valor da distribuição preditiva anterior no x observado. Se o preditivo anterior for discreto, essa é uma massa de probabilidade e, se o preditivo anterior for contínuo, será uma densidade de probabilidade.

A previsão preditiva anterior é no caso contínuo é

p (x) = \int_{Θ} p (θ) p (x | θ)

$p(x) = \int_\Theta p(\theta)p(x|\theta)$

Qual é uma distribuição que atribui massa / densidade de probabilidade aos resultados no espaço amostral. Então, quando x é observado, ele é fixado no x observado e se encaixa no denominador do teorema de Bayes.

No entanto, observe que, com distribuições contínuas, não há restrição matemática no valor da densidade atribuído a um conjunto com a medida zero (ou seja, probabilidade zero), e como qualquer ponto específico de uma distribuição contínua tem de fato a medida zero, então tecnicamente o valor da densidade no preditivo anterior em exatamente x pode ser definido arbitrariamente. Mas, tirando isso, acho que essa maneira de visualizar a constante de normalização é bastante intuitiva.

Você pode ler mais aqui . (Deixe-me saber se você não tem acesso) Isso também, que é um pouco mais moderno.

Alexander Etz
fonte

1

O gráfico tridimensional de Richard foi muito útil. O que eu preciso, no entanto, é algo que eu possa colar como gráfico em um manuscrito. Após algumas pesquisas, localizei esta imagem de Westfall e Henning, Entendendo os métodos estatísticos avançados , Chapman & Hall / CRC, 2013.

A nova identificação dos eixos como a probabilidade binomial p à esquerda e o número de sucessos y à direita ilustra uma distribuição binomial, e a face da distribuição conjunta é a distribuição marginal a ser integrada.

Além disso, essa distribuição conjunta me fez perceber que nosso vocabulário para isso está ausente. Usamos o termo “marginal” para o subconjunto relevante para a constante de normalização, porque esse vocabulário vem de uma tabela de contingência bidirecional com dados discretos, em que a soma das probabilidades é escrita nas margens da tabela. Continuamos a usar o mesmo vocabulário no caso contínuo de distribuição conjunta, mas não é descritivo.

Mas o número de Westfall e Henning deixa claro que, para a constante de normalização, estamos integrando uma “fatia” da distribuição conjunta para o valor de y, o número de sucessos no caso binomial. "Fatia" é muito mais claro que marginal e esse número deixa instantaneamente claro qual é o subconjunto relevante para integração.

Haynes
fonte

Intuição da constante de normalização bayesiana

Respostas: