Por que o fator de normalização é necessário no teorema de Bayes?

20

O teorema de Bayes vai

P (modelo | dados) = \frac{P (modelo) \times P (dados | modelo)}{P (dados)}

$P(\textrm{model}|\textrm{data}) = \frac{P(\textrm{model}) \times P(\textrm{data}|\textrm{model})}{P(\textrm{data})}$

Está tudo bem. Mas eu li em algum lugar:

Basicamente, P (dados) nada mais é do que uma constante normalizadora, ou seja, uma constante que faz com que a densidade posterior se integre a uma.

Sabemos que e . $0 \leq P(\textrm{model}) \leq 1$ $0 \leq P(\textrm{data}|\textrm{model}) \leq 1$

Portanto, deve estar entre 0 e 1. Nesse caso, por que precisamos de uma constante de normalização para integrar o posterior a um? $P(\textrm{model}) \times P(\textrm{data}|\textrm{model})$

probability bayesian conditional-probability bayes Sreejith Ramakrishnan
fonte

4

Quando você está trabalhando com densidades de probabilidade , conforme mencionado neste post, não pode mais concluir 0 <= P(model) <= 1nem 0 <= P(data/model) <= 1porque um deles (ou ambos!) Pode exceder (e até ser infinito). Consulte stats.stackexchange.com/questions/4220 .

1

$1$

whuber

1

Não é o caso de porque essa notação vaga representa a probabilidade integrada dos dados, não uma probabilidade.

P (dados | modelo) \leq 1

$P(\textrm{data}|\textrm{model})\le 1$

Xian

15

Primeiro , a integral da "probabilidade x anterior" não é necessariamente 1 .

Não é verdade que se:

$0 \leq P(\textrm{model}) \leq 1$ e $0 \leq P(\textrm{data}|\textrm{model}) \leq 1$

então a integral deste produto em relação ao modelo (para os parâmetros do modelo, de fato) é 1.

Demonstração. Imagine duas densidades distintas:

P (modelo) = [0,5, 0,5] (isso é chamado de "anterior") P (dados modelo) = [0,80, 0,2] (isso é chamado de "probabilidade")

$P(\textrm{model}) = [0.5, 0.5] \text{ (this is called "prior")}\\ P(\textrm{data | model}) = [0.80, 0.2] \text{ (this is called "likelihood")}\\$

Se você multiplicar os dois, obtém: que não é uma densidade válida, pois não se integra a um:

[0,40, 0,25]

$[0.40, 0.25]$

0,40 + 0,25 = 0,65

$0.40 + 0.25 = 0.65$

Então, o que devemos fazer para forçar a integral a ser 1? Use o fator de normalização, que é:

\sum_{model_params} P (modelo) P (dados modelo) = \sum_{model_params} P (modelo, dados) = P (dados) = 0,65

$\sum_{\text{model_params}} P(\text{model}) P(\text{data | model}) = \sum_\text{model_params} P(\text{model, data}) = P(\text{data}) = 0.65$

(desculpe pela má notação. Escrevi três expressões diferentes para a mesma coisa, já que você pode vê-las todas na literatura)

Segundo , a "probabilidade" pode ser qualquer coisa e, mesmo que seja uma densidade, pode ter valores maiores que 1 .

Como o @whuber disse, esses fatores não precisam estar entre 0 e 1. Eles precisam que sua integral (ou soma) seja 1.

Terceiro [extra], "conjugados" são seus amigos para ajudá-lo a encontrar a constante de normalização .

Você verá frequentemente: porque o denominador ausente pode ser facilmente obter integrando este produto. Observe que essa integração terá um resultado bem conhecido se o anterior e a probabilidade forem conjugados .

P (modelo | dados) \propto P (dados | modelo) P (modelo)

$P(\textrm{model}|\textrm{data}) \propto P(\textrm{data}|\textrm{model}) P(\text{model})$

Alberto
fonte

+1. Esta é a única resposta que realmente aborda a questão original de por que a constante de normalização é necessária para integrar o posterior a um . O que você faz com o posterior mais tarde (por exemplo, inferência do MCMC ou cálculo de probabilidades absolutas) é uma questão diferente.

Pedro Mediano

P (m o d e l) = [0.5, 0.5]

$P(model)=[0.5,0.5]$

σ^{2} = 1

$\sigma^2=1$

μ

$\mu$

P (μ) = [0.5, 0.5]

$P(\mu) = [0.5, 0.5]$

μ

$\mu$

12

A resposta curta para sua pergunta é que, sem o denominador, a expressão do lado direito é apenas uma probabilidade , não uma probabilidade , que só pode variar de 0 a 1. A "constante de normalização" permite obter a probabilidade de a ocorrência de um evento, e não apenas a probabilidade relativa desse evento em comparação com outro.

heropup
fonte

8

Você já tem duas respostas válidas, mas deixe-me adicionar meus dois centavos.

O teorema de Bayes é frequentemente definido como:

P (modelo | dados) \propto P (modelo) \times P (dados | modelo)

$P(\text{model}~ | ~\text{data}) \propto P(\text{model}) \times P(\text{data}~|~\text{model})$

porque a única razão pela qual você precisa da constante é para que ela se integre a 1 (veja as respostas de outras pessoas). Isso não é necessário na maioria das abordagens de simulação MCMC para análise bayesiana e, portanto, a constante é eliminada da equação. Portanto, para a maioria das simulações, isso nem é necessário.

Eu amo a descrição por Kruschke : o último filhote de cachorro (constante) está com sono, porque ele não tem nada para fazer na fórmula.

insira a descrição da imagem aqui

Além disso, alguns, como Andrew Gelman, consideram a constante como "superestimada" e "basicamente sem sentido quando as pessoas usam planos anteriores" (consulte a discussão aqui ).

Tim
fonte

9

+1 à introdução de filhotes. "Nenhum animal foi prejudicado na escrita de esta resposta" :)

alberto

Por que o fator de normalização é necessário no teorema de Bayes?

Respostas: