Como é definido quando

11

Diga que Y é uma variável aleatória contínua e X é uma variável discreta.

Pr(X=x|Y=y)=Pr(X=x)Pr(Y=y|X=x)Pr(Y=y)

Como sabemos, Pr(Y=y)=0 porque Y é uma variável aleatória contínua. E com base nisso, sou tentado a concluir que a probabilidade Pr(X=x|Y=y) é indefinida.

No entanto, a Wikipedia afirma aqui que na verdade é definida da seguinte maneira:

Pr(X=x|Y=y)=Pr(X=x)fY|X=x(y)fY(y)

Pergunta: Alguma idéia de como a Wikipedia conseguiu definir essa probabilidade?


Minha tentativa

Aqui está minha tentativa de obter esse resultado da Wikipedia em termos de limites:

Pr(X=x|Y=y)=Pr(X=x)Pr(Y=y|X=x)Pr(Y=y)=limd0Pr(X=x)(d×fY|X=x(y))(d×fY(y))=limd0Pr(X=x)(d×fY|X=x(y))(d×fY(y))=Pr(X=x)fY|X=x(y)fY(y)

Agora, Pr(X=x|Y=y) parece ser definido como Pr(X=x)fY|X=x(y)fY(y) , que corresponde essa afirmação da Wikipedia.

Foi assim que a Wikipedia fez?

Mas ainda sinto que estou abusando do cálculo aqui. Então eu acho que Pr(X=x|Y=y) é indefinido, mas no limite à medida que nos aproximamos o máximo possível da definição de Pr(Y=y) e Pr(Y=y|X=x) , mas não com precisão, então Pr(X=x|Y=y) é definido.

Mas não tenho muita certeza sobre muitas coisas, incluindo o truque de limites que fiz lá, sinto que talvez nem esteja totalmente entendendo o significado do que fiz.

homem das cavernas
fonte
11
De fato, Pr (X = x) = 0, mas a densidade de X em xf (x) pode não ser igual a 0. Você não deveria usar o rótulo 'auto-estudo' ??
Lil'Lobster
2
@Lil Até onde eu sei, a tag 'auto-estudo' é para resolver tarefas de casa. Eu não estou fazendo isso.
homem das cavernas
11
A página da Wikipedia na verdade se refere à derivação: en.wikipedia.org/wiki/Bayes'_theorem#Derivation
Ytsen de Boer 12/12/16
3
Receio que sua derivação não tenha justificativa matemática como para todo quando for contínuo. P(Y=y)=0yYY
Xian

Respostas:

10

A distribuição de probabilidade condicional , , , é formalmente definida como uma solução da equação onde indica o -álgebra associada com a distribuição de . Uma dessas soluções é fornecida pela fórmula de Bayes (1763), conforme indicado na Wikipedia :P(X=x|Y=y)xXyY

P(X=x,YA)=AP(X=x|Y=y)fY(y)dyAσ(Y)
σ(Y)σY
P(X=x|Y=y)=P(X=x)fY|X=x(y)fY(y)xX, yY
embora as versões definidas arbitrariamente em um conjunto de medida zero em também sejam válidas.σ(Y)

O conceito de probabilidade condicional em relação a uma hipótese isolada cuja probabilidade é igual a 0 é inadmissível. Pois só podemos obter uma distribuição de probabilidade [da latitude] no círculo meridiano se considerarmos esse círculo como um elemento da decomposição de toda a superfície esférica em círculos meridianos com os polos dados -  Andrei Kolmogorov

Como mostra o paradoxo de Borel-Kolmogorov , dado um valor específico potencialmente obtido , a distribuição de probabilidade condicional não tem significado preciso, não apenas porque o evento é da medida zero, mas também porque esse evento pode ser interpretado como mensurável em um intervalo infinito de -algebras.y0YP(X=x|Y=y0){ω;Y(ω)=y0}σ

Nota: Aqui está uma introdução ainda mais formal, extraída de uma revisão da teoria das probabilidades no blog de Terry Tao :

Definição 9 (Desintegração) Let ser uma variável aleatória com gama . Uma desintegração do espaço de amostra subjacente em relação a é um subconjunto de de medida completa em (portanto, quase certamente), juntamente com a atribuição de uma medida de probabilidade no subespaço de para cada , que é mensurável no sentido de que o mapaYR(R,(μy)yR)ΩYRRμYYRP(|Y=y)Ωy:={ωΩ:Y(ω)=y}ΩyRyP(F|Y=y)é mensurável para cada evento , e tal que para todos esses eventos, onde é a variável aleatória (quase certamente definida) definida como igual a sempre que .F

P(F)=EP(F|Y)
P(F|Y)P(F|Y=y)Y=y

Dada essa desintegração, podemos condicionar o evento para qualquer substituindo pelo subespaço (pela -algebra induzida ), mas substituindo a medida de probabilidade subjacente com . Assim, podemos condicionar os eventos (incondicionais) e as variáveis ​​aleatórias a este evento para criar eventos condicionados e variáveis ​​aleatórias no espaço condicionado, dando origem a probabilidades condicionaisY=yyRΩΩyσPP(|Y=y)FX(F|Y=y)(X|Y=y)P(F|Y=y)(que é consistente com a notação existente para esta expressão) e com as expectativas condicionais (assumindo integrabilidade absoluta neste espaço condicionado). Em seguida, definimos como a variável aleatória (quase certamente definida) definida como igual a sempre que .E(X|Y=y)E(X|Y)E(X|Y=y)Y=y

Xi'an
fonte
11
Já marcou com +1, mas ... talvez seja mais difícil, mas não seria mais preciso se referir ao teorema de Bayes como uma fórmula de Bayes / Laplace ..?
Tim
2
@ Tim: obrigado, mas eu não quero parecer excessivamente chauvinista! E é fato que a fórmula de Bayes para discreto (Binomial) e contínuo (Beta) aparece no artigo de Bayes (1763). Obviamente, Laplace estabeleceu o resultado em uma generalidade muito mais ampla. XY
Xian
4

Vou fazer um esboço de como as peças podem se encaixar quando é contínuo e é discreto.YX

A densidade conjunta mista:

fXY(x,y)

Densidade e probabilidade marginais:

fY(y)=xXfXY(x,y)

P(X=x)=fXY(x,y)dy

Densidade e probabilidade condicionais:

fYX(yX=x)=fXY(x,y)P(X=x)

P(X=xY=y)=fXY(x,y)fY(y)

Regra de Bayes:

fYX(yX=x)=P(X=xY=y)fY(y)P(X=x)

P(X=xY=y)=fYX(yX=x)P(X=x)fY(y)

Obviamente, a maneira moderna e rigorosa de lidar com a probabilidade é através da teoria da medida. Para uma definição de precicse, consulte a resposta de Xi'an.

Matthew Gunn
fonte
2

Observe que o artigo da Wikipedia realmente usa a seguinte definição: Ou seja, é trata o resultado como uma densidade, não como uma probabilidade. Então, eu diria que você está certo que é indefinido quando é contínuo e discreto, e é por isso que consideramos apenas densidades de probabilidade sobre nesse caso.

fX(x|Y=y)=P(Y=y|X=x)fX(x)p(Y=y)
P(X=x|Y=y)XYX

Edit: Devido a uma confusão sobre a notação (ver comentários), o item acima realmente se refere à situação oposta à que o homem das cavernas estava perguntando.

Ruben van Bergen
fonte