Probabilidade vs. Probabilidade

8

Tenho dificuldades com as probabilidades . Eu entendo o Teorema de Bayes

p(A|B,H)=p(B|A,H)p(A|H)p(B|H)

que pode ser deduzido diretamente da aplicação de p(A,B)=p(B)p(A|B)=p(A)p(B|A)=p(B,A) . Assim, na minha interpretação, p()funções no teorema de Bayes são de alguma forma todas as probabilidades, marginais ou condicionais. Então, na verdade, pensei que Probabilidade como conceito fosse mais uma visão freqüentista da probabilidade inversa.

No entanto, já vi repetidamente declarações nos livros dos bayesianistas que afirmam que a probabilidade não é uma distribuição de probabilidade. Lendo o livro de MacKay ontem, me deparei com a seguinte declaração

"[...] é importante observar que os termos probabilidade e probabilidade não são sinônimos. A quantidade P(nb|u,N) é uma função de nB e u . Para fixo u, P(nb|u,N) define uma probabilidade sobre nB , pois fixo BnB , P(nB|u,N) define a semelhança de u ".

  • Entendo o seguinte: p(A|B) é uma probabilidade de A sob um dado B , portanto, uma função : A[ 0 , 1 ]probability:A[0,1] . Mas, considerando um dado valor aA e avaliando a dependência de p(A=a|B) em diferentes bB ', na verdade estamos usando uma função diferente L:B[0,1] .

  • Esta interpretação está correta?

  • Podemos então dizer que os métodos de máxima verossimilhança podem ser motivados pelo teorema bayesiano, onde o prior é escolhido para ser constante?

wirrbel
fonte
1
Como elemento de resposta, aconselho a resposta com os links de Stephane Laurent em mathoverflow.net/questions/10971/… . Espero que ajude.
peuhp

Respostas:

7

Acho que talvez a melhor maneira de explicar a noção de probabilidade seja considerar um exemplo concreto. Suponhamos que temos uma amostra de observações IID desenhadas a partir de uma distribuição de Bernoulli com probabilidade desconhecido de sucesso : X i ~ B e r n o u l l i ( p ) , i = 1 , ... , n , de modo que a função de massa de probabilidade conjunta da amostra é Essa expressão também caracteriza a probabilidade depXiBernoulli(p)i=1,,n

Pr[X=xp]=i=1npxi(1p)1xi.
p, considerando uma amostra observada : Mas se pensarmos em como uma variável aleatória, essa probabilidade não é uma densidade: É, no entanto, proporcional a uma densidade de probabilidade, razão pela qual dizemos que é provável que seja um valor específico, dada a amostra - representa, em certo sentido, a relativa plausibilidade de ser algum valor para as observações que fizemos.x=(x1,,xn)
L(px)=i=1npxi(1p)1xi.
p
p=01L(px)dp1.
pp

Por exemplo, suponha que e a amostra seja . Intuitivamente, concluiríamos que é mais provável que seja mais próximo de do que , porque observamos mais. De fato, temos Se plotarmos essa função em , podemos ver como a probabilidade confirma nossa intuição. Obviamente, não sabemos o valor real de - poderia ter sido vez de , mas a função de probabilidade nos diz que o primeiro é muito menos provável que o segundo. Mas se queremos determinar uma probabilidaden=5x=(1,1,0,1,1)p10

L(px)=p4(1p).
p[0,1]pp=0.25p=0.8que está em um determinado intervalo, temos que normalizar a probabilidade: desde que , segue-se que em Para obter uma densidade posterior para , devemos multiplicar por : De fato, essa posterior é uma distribuição beta com os parâmetros . Agora as áreas abaixo da densidade correspondem a probabilidades.pp=01p4(1p)dp=130p30
fp(px)=30p4(1p).
a=5,b=2

Portanto, o que fizemos aqui essencialmente é a regra de Bayes: Aqui, é uma distribuição anterior no (s) parâmetro (s) , o numerador é a probabilidade de que é também a distribuição conjunta de

fΘ(θx)=fX(xθ)fΘ(θ)fX(x).
fΘ(θ)θL(θx)=fX(xθ)fΘ(θ)=fX,Θ(x,θ)X,Θ , e o denominador é a densidade marginal (incondicional) de , obtida pela integração da distribuição conjunta em relação a para encontrar a constante de normalização que torna a probabilidade uma densidade de probabilidade com respeito ao (s) parâmetro (s). Em nosso exemplo numérico, assumimos implicitamente que o prior para seja uniforme em . Pode-se mostrar que, para uma amostra de Bernoulli, se o anterior for , o posterior para também será Beta, mas com os parâmetros ,XθfΘ[0,1]Beta(a,b)fΘa=a+xib=b+nxi. Chamamos esse conjugado anterior (e nos referimos a isso como um par conjugado Bernoulli-Beta).
heropup
fonte