Por que não usar o teorema de Bayes na forma ?

9

Existem muitas perguntas (como esta ) sobre alguma ambiguidade com a fórmula bayesiana em caso contínuo.

p(θ|x)=p(x|θ)p(θ)p(x)

Muitas vezes, a confusão surge do fato de que a definição da distribuição condicional f(variable|parameter) é explicada como f sendo função da variable dado um parameter fixo .

Além disso, existe um princípio de equivalência declarando que a probabilidade pode ser escrita como:

L(θ|x)=p(x|θ)

Então, por que não usar a regra de Bayes para distribuições da seguinte forma:

p(θ|x)=L(θ|x)p(θ)p(x)

enfatizar que estamos lidando com funções de θ dados observados x , e que o respectivo termo é de probabilidade (pelo menos, começando com L )?

Isso é uma questão de tradição ou há algo mais fundamental nessa prática?

muito
fonte
Qual é o significado de ? Eu sei disso como uma probabilidade. Mas, no caso contínuo, não vejo de que probabilidade você está falando. p()
Sextus Empiricus
@MartijnWeterings, funções devem ser distribuições de probabilidade válidas em todos os casos, exceto quando houver "probabilidade" da forma . Estou esquecendo de algo? p ( x | θ )p()p(x|θ)
IOT
O que você quer dizer com distribuição de probabilidade? Acumulado, densidade, etc.?
Sextus Empiricus
1
Pode ajudar a dar um passo atrás e perceber que não há "variáveis" no teorema de Bayes, pelo menos ao usar o termo. Existem pontos de dados e parâmetros de modelo. Nesse sentido, . Você invoca uma criatura do tipo posterior que chama de probabilidade. Mas não é. Então, eu não tenho certeza para onde você está indo com isso. E, em geral, que não faz sentido no caso em que e e nem têm o mesmo suporte. P ( m o dP(model|data)P(data)=P(data,model)=P(data|model)P(model)p ( x | y ) = p ( y | x )P(model|data)x = d a t a y = m o d e l . x yp(x|y)=p(y|x)p(x)=p(y)x=datay=model. xy
Peter Leopold

Respostas:

6

Existem dois resultados básicos de probabilidade que estão em ação no teorema de Bayes. Uma é uma maneira de reescrever uma função de densidade de probabilidade conjunta :

p(x,y)=p(x|y)p(y).

A outra é uma fórmula para calcular uma função de densidade de probabilidade condicional :

p(y|x)=p(x,y)p(x).

O teorema de Bayes apenas une essas duas coisas:

p(θ|x)=p(x,θ)p(x)=p(x|θ)p(θ)p(x)

Portanto, os dados e os parâmetros são variáveis ​​aleatórias com pdf em conjuntoxθ

p(x,θ)=p(x|θ)p(θ),
e é isso que aparece no numerador no teorema de Bayes. Assim, escrever a probabilidade como uma densidade de probabilidade condicional em vez de como uma função dos parâmetros deixa clara a probabilidade básica em jogo.L

Dito isso, você verá as pessoas usarem, como aqui ou aqui .

jcz
fonte
@iot Nas estatísticas clássicas, você pode estimar os parâmetros encontrando o que maximiza como uma função dep ( xθθp(x|θ)θ . Assim, as pessoas escreverão e tentarão calcular . Nesse caso, você não se importa com o "status" de como um pdf condicional sobre . Você se preocupa com seu status como uma função com valor real de que deseja maximizar em relação a . Portanto, a notação no estilo é uma reserva dessa configuração. L(θ)=p(x|θ)θ^MLE=argmaxL(θ)p(x|θ)xθθL()
jcz
8

A função de probabilidade é meramente proporcional à densidade de amostragem, no sentido de que você tem para uma constante (embora você deva observar que a probabilidade é uma função do parâmetro, não dos dados). Se você quiser usar isso em sua expressão para o teorema de Bayes, precisará incluir a mesma constante de escala no denominador:Lx(θ)=kp(x|θ)k>0

p(θ|x)=Lx(θ)p(θ)kp(x)=Lx(θ)p(θ)Lx(θ)p(θ) dθLx(θ)p(θ).

Se você usar a fórmula que você propôs, acabará com um núcleo da densidade posterior, mas ele poderá não se integrar a um (e, portanto, geralmente não é uma densidade).

Ben - Restabelecer Monica
fonte
2
I como a sua resposta, mas na fórmula original com sendo fixo (contexto Bayesian) não faz também uma distribuição de probabilidade válida , e também é um fator de escala é igual a 1. Então, por que você acha que não é unidade em sua explicação? p(x|θ)xp(x)k
Garej
1
Frequentemente, formulamos a função de probabilidade removendo partes multiplicativas que não dependem do parâmetro de interesse. Fazemos isso para simplificar a análise, evitando a necessidade de acompanhar uma constante de integração. Por exemplo, se , , removendo o coeficiente binomial na distribuição binomial. Nesse caso, temos , que geralmente não é igual a um. p(x|θ)=Bin(x|n,θ)Lx(θ)=θx(1θ)nxk=(nx)
Ben - Restabelece Monica
1
Portanto, o que você quer dizer é que existe uma convenção de que a probabilidade é geralmente livre de constantes desnecessárias e, portanto, a versão do iot pode ser um pouco enganadora para os estatísticos?
garej
Embora essa seja realmente uma maneira convencional de definir a probabilidade, o ponto aqui é que a função de probabilidade é geralmente definida apenas até a proporcionalidade, portanto, não há garantia de que no trabalho acima. k=1
Ben - Restabelece Monica
É a primeira vez que li que a probabilidade é proporcional a uma densidade. Para mim, isso é apenas um trecho e possivelmente errado. O problema está na terminologia sobreposta. Não devemos considerar uma densidade uma probabilidade, no governo de Bayes, mas continuamos fazendo isso.
Nbro 12/11/19