Hmmm ... O último não deve ser uma função de x, mas um número! Estou errado?
David
Respostas:
23
Grosso modo, a diferença entre e é que a primeira é uma variável aleatória, enquanto a segunda é (em algum sentido) uma realização de . Por exemplo, se
então é a variável aleatória
Por outro lado, uma vez que é observado, provavelmente estaríamos interessados na quantidade que é um escalar.E(X∣Y)E(X∣Y=y)E(X∣Y)
(X,Y)∼N(0,(1ρρ1))
E(X∣Y)
E(X∣Y)=ρY.
Y=yE(X∣Y=y)=ρy
Talvez isso pareça uma complicação desnecessária, mas considerar como uma variável aleatória por si só é o que faz coisas como a lei da torre fazer sentido - a coisa no interior do aparelho é aleatória, então podemos perguntar qual é a sua expectativa, enquanto não há nada aleatório em . Na maioria dos casos, podemos esperar calcular
E(X∣Y)E(X)=E[E(X∣Y)]E(X∣Y=y)
E(X∣Y=y)=∫xfX∣Y(x∣y)dx
e, em seguida, obtenha "conectando" a variável aleatória no lugar de na expressão resultante. Como sugerido em um comentário anterior, há um pouco de sutileza que pode surgir com relação a como essas coisas são rigorosamente definidas e vinculá-las da maneira apropriada. Isso tende a acontecer com probabilidade condicional, devido a alguns problemas técnicos da teoria subjacente.E(X∣Y)Yy
Seja um número real fixo , diga . Então,
é um
número : é o valor condicional esperado de dado que tem o valor . Agora, observe algum outro número real fixo , diga , seria o valor esperado condicional de
X dado Y = 1,5 (um valor real número). Não há razão para supor que E [ X ∣y0y0=1E[X∣Y=y0]=E[X∣Y=1]XY1y1y1=1.5E[X∣Y=y1]=E[X∣Y=1.5]XY=1.5E[X∣Y=1.5] eE[X∣Y=1] têm o mesmo valor. Assim, também podemos considerarE[X∣Y=y] como sendo umafunção com valor real
que mapeia números reaispara números reais. Observe que a afirmação na pergunta do OP de queé uma função de
está incorreta:é uma função com valor real deg(y)yE[X∣Y=y]E[X∣Y=y]xE[X∣Y=y]y .
Por outro lado, E[X∣Y] é uma variável aleatória Z que passa a ser uma função da variável aleatória Y . Agora, sempre que escrevemos Z=h(Y) , o que queremos dizer é que sempre que a variável aleatória
Y tem valor y , a variável aleatória Z tem valor
h(y) . Sempre que Y assume o valor y , a variável aleatória Z=E[X∣Y] assume o valorE[X∣Y=y]=g(y) . Assim,E[X∣Y] é apenas outro nome para a variável aleatóriaZ=g(Y) . Observe queE[X∣Y] é uma função deY
(nãoy como na declaração da pergunta do OP).
Como um exemplo ilustrativo simples, suponha que
X e Y sejam variáveis aleatórias discretas com distribuição conjunta
Observe queXeYsãovariáveis aleatórias(dependentes) deBernoullicom parâmetros0.7e0.6respectivamente, e entãoE[X]=0.7
eE[Y]=0.6. Agora, observe que,condicionadoemY=0,Xé uma variável aleatória de Bernoulli com parâmetro 0.75 enquanto condicionada em Y=1 , X é uma variável aleatória de Bernoulli com parâmetro 23 . Se você não consegue entender por que isso é tão imediato, apenas elabore os detalhes: por exemplo,
e de forma semelhante paraP(X=1∣Y=1)eP(X=0∣Y=1). Portanto, temos que
E[X∣Y=0]=34,E[X∣Y=1]=23.
Assim,E[X∣Y=y]=g(y)queg(y)é uma função com valor real, desfrutando das propriedades:
g(0)=34,g(1)=23.
Por outro lado, E[X∣Y]=g(Y) é uma variável aleatória
que assume os valores 34 e23 com probabilidades0.4=P(Y=0)e0.6=P(Y=1)respectivamente. Observe queE[X∣Y]é umavariável aleatóriadiscreta, masnão éuma variável aleatória de Bernoulli.
Como toque final, observe que
E[Z]=E[E[X∣Y]]=E[g(Y)]=0.4×34+0.6×23=0.7=E[X].
Ou seja, o valor esperado dessafunçãodeY, calculado usando apenas a distribuição marginal deY, passa a ter omesmovalor numérico queE[X]!! Esta é uma ilustração de um resultado mais geral que muitas pessoas acreditam que é uma mentira:
E[E[X∣Y]]=E[X].
Desculpe, isso é apenas uma pequena piada. MENTIRA é um acrônimo para Lei da Expectativa Iterada, que é um resultado perfeitamente válido que todos acreditam ser a verdade.
é a expectativa de uma variável aleatória: a expectativa de X condicional em Y .
E ( X | Y = y ) , por outro lado, é um valor específico: o valor esperado de X quando Y = y .E(X|Y)XYE(X|Y=y)XY=y
Pense desta maneira: deixe representar a ingestão calórica e Y representar a altura. E ( X | Y ) é então a ingestão calórica, condicionada à altura - e, neste caso, E ( X | Y = y ) representa nosso melhor palpite quanto à ingestão calórica ( X ) quando uma pessoa tem uma certa altura Y = y digamos, 180 centímetros. XYE(X|Y)E(X|Y=y)XY=y
Acredito que sua primeira frase deve substituir "distribuição" por "expectativa" (duas vezes).
Glen_b -Reinstala Monica 10/10
4
não é a distribuição de X dado Y ; isso seria mais comumente denotado pela densidade condicional f X ∣ Y ( x ∣ y ) ou função de distribuição condicional. E ( X ∣ Y ) é a expectativa condicional de X dado Y , que é umavariável aleatória mensurável em Y. E ( X ∣ Y = y )E(X∣Y)XYfX∣Y(x∣y)E(X∣Y)XYYE(X∣Y=y)pode ser pensado como a realização da variável aleatória quando Y = y é observado (mas existe a possibilidade da sutileza da teoria da medida se infiltrar). E(X∣Y)Y=y
cara
1
@guy Sua explicação é a primeira resposta precisa já fornecida (das três oferecidas até o momento). Você consideraria publicá-lo como resposta?
whuber
@whuber eu iria, mas eu não tenho certeza de como encontrar o equilíbrio entre precisão e fazer a resposta adequada útil OP e eu sou paranóico sobre se tropeçar em tecnicalidades :)
cara
@ Buy Acho que você já fez um bom trabalho com os detalhes técnicos. Como você é sensível a se comunicar bem com o OP (o que é ótimo!), Considere oferecer um exemplo simples para ilustrar - talvez apenas uma distribuição conjunta com marginais binários.
whuber
1
é o valor esperado de valores de X dados valores de Y E ( X | Y = y ) é o valor esperado de X dado que o valor de Y é yE(X|Y)XYE(X|Y=y)XYy
Geralmente é a probabilidade dos valores X dados valores Y , mas você pode ser mais preciso e dizer P ( X = x | Y = y ) , ou seja, probabilidade do valor x de todos os X 's, dada a y 'th valor de Y 's. A diferença é que, no primeiro caso, trata-se de "valores de" e no segundo você considera um determinado valor.P(X|Y)XYP(X=x|Y=y)xXyY
Respostas:
Grosso modo, a diferença entre e é que a primeira é uma variável aleatória, enquanto a segunda é (em algum sentido) uma realização de . Por exemplo, se então é a variável aleatória Por outro lado, uma vez que é observado, provavelmente estaríamos interessados na quantidade que é um escalar.E(X∣Y) E(X∣Y=y) E(X∣Y)
Talvez isso pareça uma complicação desnecessária, mas considerar como uma variável aleatória por si só é o que faz coisas como a lei da torre fazer sentido - a coisa no interior do aparelho é aleatória, então podemos perguntar qual é a sua expectativa, enquanto não há nada aleatório em . Na maioria dos casos, podemos esperar calcularE(X∣Y) E(X)=E[E(X∣Y)] E(X∣Y=y)
e, em seguida, obtenha "conectando" a variável aleatória no lugar de na expressão resultante. Como sugerido em um comentário anterior, há um pouco de sutileza que pode surgir com relação a como essas coisas são rigorosamente definidas e vinculá-las da maneira apropriada. Isso tende a acontecer com probabilidade condicional, devido a alguns problemas técnicos da teoria subjacente.E(X∣Y) Y y
fonte
Suponha que e são variáveis aleatórias.X Y
Seja um número real fixo , diga . Então, é um número : é o valor condicional esperado de dado que tem o valor . Agora, observe algum outro número real fixo , diga , seria o valor esperado condicional de X dado Y = 1,5 (um valor real número). Não há razão para supor que E [ X ∣y0 y0=1 E[X∣Y=y0]=E[X∣Y=1] X Y 1 y1 y1=1.5 E[X∣Y=y1]=E[X∣Y=1.5] X Y=1.5 E[X∣Y=1.5] eE[X∣Y=1] têm o mesmo valor. Assim, também podemos considerarE[X∣Y=y] como sendo umafunção com valor real
que mapeia números reaispara números reais. Observe que a afirmação na pergunta do OP de queé uma função de
está incorreta:é uma função com valor real deg(y) y E[X∣Y=y] E[X∣Y=y] x E[X∣Y=y] y .
Por outro lado,E[X∣Y] é uma variável aleatória Z que passa a ser uma função da variável aleatória Y . Agora, sempre que escrevemos Z=h(Y) , o que queremos dizer é que sempre que a variável aleatória
Y tem valor y , a variável aleatória Z tem valor
h(y) . Sempre que Y assume o valor y , a variável aleatória
Z=E[X∣Y] assume o valorE[X∣Y=y]=g(y) . Assim,E[X∣Y] é apenas outro nome para a variável aleatóriaZ=g(Y) . Observe queE[X∣Y] é uma função deY
(nãoy como na declaração da pergunta do OP).
Como um exemplo ilustrativo simples, suponha queX e Y sejam variáveis aleatórias discretas com distribuição conjunta
P(X=0,Y=0)P(X=1,Y=0)=0.1, P(X=0,Y=1)=0.2,=0.3, P(X=1,Y=1)=0.4.
Observe queX eY sãovariáveis aleatórias(dependentes) deBernoullicom parâmetros0.7 e0.6 respectivamente, e entãoE[X]=0.7
eE[Y]=0.6 . Agora, observe que,condicionadoemY=0 ,X é uma variável aleatória de Bernoulli com parâmetro 0.75 enquanto condicionada em Y=1 , X é uma variável aleatória de Bernoulli com parâmetro 23 . Se você não consegue entender por que isso é tão imediato, apenas elabore os detalhes: por exemplo,
P(X=1∣Y=0)=P(X=1,Y=0)P(Y=0)=0.30.4=34,P(X=0∣Y=0)=P(X=0,Y=0)P(Y=0)=0.10.4=14,
e de forma semelhante paraP(X=1∣Y=1) eP(X=0∣Y=1) . Portanto, temos que
E[X∣Y=0]=34,E[X∣Y=1]=23.
Assim,E[X∣Y=y]=g(y) queg(y) é uma função com valor real, desfrutando das propriedades:g(0)=34,g(1)=23.
Por outro lado,E[X∣Y]=g(Y) é uma variável aleatória
que assume os valores 34 e23 com probabilidades0.4=P(Y=0) e0.6=P(Y=1) respectivamente. Observe queE[X∣Y] é umavariável aleatóriadiscreta, masnão éuma variável aleatória de Bernoulli.
Como toque final, observe queE[Z]=E[E[X∣Y]]=E[g(Y)]=0.4×34+0.6×23=0.7=E[X].
Ou seja, o valor esperado dessafunçãodeY , calculado usando apenas a distribuição marginal deY , passa a ter omesmovalor numérico queE[X] !! Esta é uma ilustração de um resultado mais geral que muitas pessoas acreditam que é uma mentira:
E[E[X∣Y]]=E[X].
Desculpe, isso é apenas uma pequena piada. MENTIRA é um acrônimo para Lei da Expectativa Iterada, que é um resultado perfeitamente válido que todos acreditam ser a verdade.
fonte
é a expectativa de uma variável aleatória: a expectativa de X condicional em Y . E ( X | Y = y ) , por outro lado, é um valor específico: o valor esperado de X quando Y = y .E(X|Y) X Y E(X|Y=y) X Y=y
Pense desta maneira: deixe representar a ingestão calórica e Y representar a altura. E ( X | Y ) é então a ingestão calórica, condicionada à altura - e, neste caso, E ( X | Y = y ) representa nosso melhor palpite quanto à ingestão calórica ( X ) quando uma pessoa tem uma certa altura Y = y digamos, 180 centímetros.X Y E(X|Y) E(X|Y=y) X Y=y
fonte
é o valor esperado de valores de X dados valores de Y E ( X | Y = y ) é o valor esperado de X dado que o valor de Y é yE(X|Y) X Y
E(X|Y=y) X Y y
Geralmente é a probabilidade dos valores X dados valores Y , mas você pode ser mais preciso e dizer P ( X = x | Y = y ) , ou seja, probabilidade do valor x de todos os X 's, dada a y 'th valor de Y 's. A diferença é que, no primeiro caso, trata-se de "valores de" e no segundo você considera um determinado valor.P(X|Y) X Y P(X=x|Y=y) x X y Y
Você pode encontrar o diagrama abaixo útil.
fonte