Probabilidade condicional de variável contínua

12

Suponha que a variável aleatória U siga uma distribuição uniforme uniforme com os parâmetros 0 e 10 (ou seja, UU(0,10) )

Agora, vamos denotar A o evento que U = 5 e B o evento que U é igual a 5 ou 6. De acordo com o meu entendimento, ambos os eventos têm probabilidade zero de ocorrer.

Agora, se considerarmos calcular P(A|B) , não podemos usar a lei condicional P(A|B)=P(AB)P(B) , porqueP(B)é igual a zero. No entanto, a minha intuição me diz queP(A|B)=1/2.

Novato
fonte
2
O que sua intuição lhe diria se tivesse densidade não uniforme de 0,02 u , u ( 0 , 10 ) ? U0.02u,u(0,10)
Dilip Sarwate
1
@DilipSarwate Minha intuição me dizia que a resposta é um número ligeiramente inferior a 0,5
Noob

Respostas:

9

"O conceito de probabilidade condicional em relação a uma hipótese isolada cuja probabilidade é igual a 0 é inadmissível." A. Kolmogorov

Para variáveis ​​aleatórias contínuas, e Y dizem, distribuições condicionais são definidas pela propriedade de que eles recuperam a medida de probabilidade original, ou seja, para todos os conjuntos mensuráveis A B ( X ) , B B ( Y ) , P ( X Um , Y B ) = B d P Y ( Y ) B d P X | Y ( x |XYAB(X)BB(Y) Isso implica que a densidade condicional seja definida arbitrariamente em conjuntos de medidas zero ou, em outras palavras, que a densidade condicional p X | Y ( x | y ) é definidoquase em todo lugar. Como o conjunto { 5 , 6 } é da medida zero em relação à medida de Lebesgue, isso significa que você pode definir p ( 5 ) e p ( 6 ) de maneiras absolutamente arbitrárias e, portanto, a probabilidade P ( U = 5 |

P(XA,YB)=BdPY(y)BdPX|Y(x|y)
pX|Y(x|y){5,6}p(5)p(6) pode assumir qualquer valor.
P(você=5|você{5,6})

Isso não significa que você não pode definir uma densidade condicional pela fórmula da razão como no caso normal bivariado, mas simplesmente que a densidade é definida apenas em quase todos os lugares para ambos x e y .

f(y|x)=f(x,y)/f(x)
xy

"Muitos argumentos fúteis surgiram - entre probabilistas de outra forma competentes - sobre qual desses resultados é 'correto'." ET Jaynes

O fato de o argumento limitador (quando chegar a zero) na resposta acima parece dar uma resposta natural e intuitiva está relacionado ao paradoxo de Borel . A escolha da parametrização no limite é importante, como mostra o exemplo a seguir que uso nas minhas aulas de graduação.ϵ


Tome o bivariado normal , Y i.id N ( 0 , 1 ) Qual é a densidade condicional de X dado que X = Y ?

X,Yi.i.d.N(0,1)
XX=Y


Se alguém começa a partir da densidade da junta , a resposta "intuitiva" é [proporcional a] φ ( x ) 2 . Isso pode ser obtido considerando a mudança da variável ( x , t ) = ( x , y - x ) φ ( x ) φ ( t + x ) onde T = Y - X tem a densidade φ (φ(x)φ(y)φ(x)2

(x,t)=(x,yx)φ(x)φ(t+x)
T=YX . Logo,f(x|t)= φ ( x ) φ ( t + x )φ(t/2)/2 ef(x|t=0)=φ(x)φ(x)
f(x|t)=φ(x)φ(t+x)φ(t/2)/2
No entanto, se considerarmos a alteração da variável(x,r)=(x,y/x)φ(x)φ(rx)| x| a densidade marginal deR=Y/Xé a densidade de Cauchyψ(r)=1/π{1+r2}e a densidade condicional deX
f(x|t=0)=φ(x)φ(x)φ(0/2)/2=φ(x)22
(x,r)=(x,y/x)φ(x)φ(rx)|x|
R=Y/Xψ(r)=1/π{1+r2}X dado que é f ( x |R
f(x|r)=φ(x)φ(rx)|x|×π{1+r2}
f(x|r=1)=πφ(x)2|x|/2.
R=1T=0 0X=YX
Xi'an
fonte
2
Isto é simplesmente errado. Se você seguir um curso rigoroso da teoria das probabilidades, verá que o condicionamento a eventos de medida zero é possível e prático. Considere um gaussiano bitivariado. Todo mundo sabe que você pode condicionar a primeira variável assumindo o valor zero, embora esse evento tenha probabilidade zero. Veja a Wikipedia. pt.wikipedia.org/wiki/…
Yair Daon
5

Aqui está uma resposta controversa:

Xi'an está certo que você não pode condicionar eventos com probabilidade zero. No entanto, a Yair também tem razão em que, depois de decidir sobre um processo de limitação , você poderá avaliar uma probabilidade. O problema é que existem muitos processos limitadores que chegam à condição desejada.

Eu acho que o princípio da indiferença às vezes pode resolver essas escolhas. Argumenta que o resultado não deve ser afetado por uma troca arbitrária de rótulos. no seu caso, digamos, invertendo o intervalo para que fique uniforme(1,11)e os pontos 5 e 6 foram trocados. Inverter altera uma respostap para 1-p. Portanto, se você escolheu um processo limitador diferente para um do outro, então, por uma mudança arbitrária de rótulos (nesse caso, alterando o infinito positivo por infinito negativo) obteve um resultado diferente. Isso não deve acontecer de acordo com o princípio da indiferença. Portanto, a resposta é 0,5 como você adivinhou.

Observe que muitos estatísticos não aceitam o princípio da indiferença. Gosto porque reflete minhas intuições. Embora eu nem sempre tenha certeza de como aplicá-lo, talvez em 50 anos seja mais popular?

Neil G
fonte
Obrigado por um post atencioso. Eu, por um lado, duvido seriamente que o "princípio da indiferença" seja sempre mainstream, porque não é viável. Seu argumento desmorona quando os valores subjacentes são reexpressos. A distribuição uniforme em[0 0,10] pode se tornar, digamos, uma distribuição Cauchy, 5 poderia se tornar 0 0e 6 tornar-se 1-25. Seu "princípio de indiferença" agora produz uma resposta completamente diferente. (Eu usei as transformações de probabilidade de trabalhar fora este exemplo.)
whuber
@ whuber: O argumento de inversão não funcionaria para uma distribuição Cauchy, a menos que você alternasse o modo.
31515 Neil G
Claro que sim: existem várias maneiras de transformar uma distribuição contínua em outra que troca dois valores. Na verdade, seu "lançamento" nem preservou a distribuição original. (Ele mudou completamente o suporte.) Portanto, parece que tudo o que você está fazendo é substituir uma distribuição por outra. Parece não haver nenhum princípio operando aqui.
whuber
@whuber: substituiu uma distribuição por outra, na qual as regiões uniformes ao redor dos 5 e 6 permaneceram inalteradas - da mesma maneira que acho que diminuir o zoom tenta deixar as densidades inalteradas nos círculos originais no paradoxo de Bertrand .
31515 Neil G
1
@ whuber: Você está certo. Gostei muito da resposta da Batata para uma das minhas perguntas. Pessoalmente, penso que, se houver discrepância entre teoria e intuição, devemos procurar novas e mais completas teorias. Talvez o "princípio da indiferença" não esteja certo, ou geralmente não seja viável, mas tenho um desejo natural da teoria da probabilidade de responder a perguntas para as quais temos um entendimento intuitivo. Talvez Lebesgue tenha o mesmo tipo de angústia sobre a integração de Riemann quando criou sua integral?
Neil G
1

Yes we can! You can condition on events of zero probability! The math gets complicated - you need some measure theory but you can do it. In simple cases like this I would seek intuition by defining A=[5ϵ2,5+ϵ2] and B=[5ϵ4,5+ϵ4][6ϵ4,6+ϵ4]. Do everything now as you did before and take ϵ0.

Let me stress again (and again) that the above method is used for intuition. Conditioning on events of zero probability is done very often without much thought. The best example I can think of is if (X1,X2)N(0,Σ) is a bivariate gaussian. One often considers the density of X1 given (say) X2=0, which is an event of measure zero. This is well grounded in theory, but not at all trivial. Regarding @Xi'an's quote of Kolmogorov - I can only quote Varadhan: "One of our goals is to seek a definition that makes sense when P(ξ=a)=0" (Probability Theory, Courant lecture notes, page 74).

So, yes, you can give meaning to conditioning on events of measure zero.

Yair Daon
fonte
5
Suppose UU[0,10]: that is, both 0 and 10 are possible. How would you deal with the situation when A={0} and B={0,6}? Would P(A|B)=1/2 (which "intuitively" is the right answer because all numbers in [0,10] have the same densities) or perhaps 1/3 (which a simple change of 5 to 0 in your formula would give) or even 0?
whuber
2
@YairDaon Thank you for you answer! If I understood well, you mean to do the following: for small ε, we have: P(A|B)=P(AB)P(B)=5ε45+ε4f(u)du5ε45+ε4f(u)du+6ε46+ε4f(u)du=ε2ε2+ε2=0.5
Noob
3
@YairDaon But I think that the result is not invariant if originally we had defined A as [5ε8,5+ε8] (and B the same as before). In such a case the result would be 18
Noob
4
It is excellent for the intuition by showing there is no unique answer: that is the basis for Kolmogorov's statement quoted by @Xi'an. The fact you had to change your procedure to make things come out as you thought they should ought to alert you to the problems with this approach.
whuber
3
The density of X2 given X1 is well-defined, contrary to the density of X2 given X1=0.
Xi'an