Uma generalização da Lei das Expectativas Iteradas

43

Recentemente me deparei com essa identidade:

E[E(Y|X,Z)|X]=E[Y|X]

Obviamente, eu estou familiarizado com a versão mais simples dessa regra, a saber, que mas não consegui encontrar justificativa para sua generalização.E[E(Y|X)]=E(Y)

Ficaria grato se alguém pudesse me indicar uma referência não tão técnica para esse fato ou, melhor ainda, se alguém pudesse apresentar uma prova simples desse importante resultado.

JohnK
fonte
2
Se o próprio estivesse condicionado a algum , isso não sairia exatamente da versão mais simples? yx
Mehrdad

Respostas:

36

TRATAMENTO INFORMAL

Devemos lembrar que a notação em que condicionamos as variáveis ​​aleatórias é imprecisa, embora econômica, como notação. Na realidade, condicionamos na sigma-álgebra que essas variáveis ​​aleatórias geram. Em outras palavras, significa . Essa observação pode parecer deslocada em um "Tratamento Informal", mas nos lembra que nossas entidades condicionantes são coleções de conjuntos (e quando condicionamos em um único valor, esse é um conjunto único). E o que esses conjuntos contêm? Eles contêm a informação com a qual os valores possíveis da variável aleatória fornecer-nos sobre o que pode acontecer com a realização de .E[YX]X Y σ ( X ) σ ( X , Z ) Y σ ( X , Z ) σ ( X ) σ ( X ) eu x σ ( X , Z ) I x zE[Yσ(X)]XY
A introdução do conceito de informação nos permite pensar (e usar) a Lei das Expectativas Iteradas (às vezes chamada de "Propriedade da Torre") de uma maneira muito intuitiva:
a álgebra sigma gerada por duas variáveis ​​aleatórias é pelo menos tão grande como aquele gerado por uma variável aleatória: no significado apropriado da teoria dos conjuntos. Portanto, as informações sobre contidas em são pelo menos tão grandes quanto as informações correspondentes em . Agora, como sugestão notacional, defina e . Então o LHS da equação que estamos olhando, pode ser escritoσ(X)σ(X,Z)Yσ(X,Z)σ(X)
σ(X)Ixσ(X,Z)Ixz

Y I x z I x

E[E(Y|Ixz)|Ix]
Descrevendo verbalmente a expressão acima, temos: "qual é a expectativa de {o valor esperado de dada a informação } dado que temos informações disponíveis apenas ? " YIxzIx

De alguma forma, podemos "levar em conta" ? Não - só sabemos . Mas se usarmos o que temos (como somos obrigados pela expressão que queremos resolver), então estamos essencialmente dizendo coisas sobre sob o operador de expectativas, ou seja, dizemos " ", não mais - acabamos de esgotar nossas informações. I x Y E ( Y I x )IxzIxYE(YIx)

Portanto,

E[E(Y|Ixz)|Ix]=E(Y|Ix)

Se alguém não o fizer, voltarei para o tratamento formal.

A (pouco mais) TRATAMENTO FORMAL

Vejamos como dois livros muito importantes da teoria das probabilidades, Probabilidade e Medida de P. Billingsley (3d ed.-1995) e D. Williams "Probabilidade com Martingales" (1991), tratam a questão de provar a "Lei das Expectativas Iteradas":
Billingsley dedica exatamente três linhas à prova. Williams, e cito, diz

"(a propriedade da torre) é praticamente imediata a partir da definição de expectativa condicional".

Essa é uma linha de texto. A prova de Billingsley não é menos opaca.

É claro que eles estão certos: essa propriedade importante e muito intuitiva da expectativa condicional deriva essencialmente diretamente (e quase imediatamente) de sua definição - o único problema é que suspeito que essa definição não seja normalmente ensinada, ou pelo menos não destacada, pela probabilidade externa ou medir círculos teóricos. Mas, para mostrar (quase) três linhas que a Lei das Expectativas Iteradas mantém, precisamos da definição de expectativa condicional, ou melhor, de sua propriedade definidora .

Deixe um espaço de probabilidade , e uma variável aleatória integrável . Vamos ser um sub- -álgebra de , . Existe uma função que é mensurável, é integrável e (esta é a propriedade que define)Y G σ F GF W G(Ω,F,P)YGσFGFWG

E(W1G)=E(Y1G)GG[1]

onde é a função de indicador do conjunto . Dizemos que é ("uma versão de") a expectativa condicional de dada , e escrevemos O detalhe crítico a ser observado aqui é que a expectativa condicional , tem o mesmo valor esperado como faz, não apenas sobre toda a , mas em cada subconjunto de . G W Y G W = E ( Y G )1GGWYGS G G GW=E(YG)a.s.
YGGG

(Tentarei agora apresentar como a propriedade Tower deriva da definição de expectativa condicional).

W é uma variável aleatória mensurávelConsidere então alguns sub- -álgebra, dizer . Em seguida, . Portanto, de maneira análoga à anterior, temos a expectativa condicional de dada , digamos isso é caracterizado por GσHGGHGGWHU=E(WH)a.s.

E(U1G)=E(W1G)GH[2]

Como , as equações e nos dãoHG[1][2]

E(U1G)=E(Y1G)GH[3]

Mas esta é a propriedade que define a esperança condicional de dada . YHPortanto, temos o direito de escrever uma vez que também tem por construção , que apenas se mostrou a propriedade de torre, ou o forma geral da Lei das Expectativas Iteradas - em oito linhas.U=E(YH)a.s.
U=E(WH)=E(E[YG]H)

Alecos Papadopoulos
fonte
6
(+1) Esta é uma maneira útil de descrever um conceito abstrato e difícil. Acredito, porém, que a frase "... não é maior ..." deveria ser "não é menor". Melhor ainda, essa seção poderia ser esclarecida removendo os negativos e usando uma construção paralela, como em "A álgebra sigma gerada por duas variáveis ​​é pelo menos tão grande quanto a gerada por uma variável aleatória ... Portanto, as informações sobre continham in é pelo menos tão grande quanto a informação correspondente em . " Yσ(X,Z)σ(X)
whuber
Obrigado a ambos, cc @whuber. Este é um teorema muito útil.
JohnK
@ whuber Obrigado por detectar isso - e pela sugestão.
Alecos Papadopoulos
24

A maneira como entendo a expectativa condicional e ensino meus alunos é a seguinte:

expectativa condicional é uma foto tirada por uma câmera com resoluçãoE[Y|σ(X)]σ(X)

Como mencionado por Alecos Papadopoulos, a notação é mais precisa que . Ao longo da linha da câmera, pode-se pensar em como o objeto original, por exemplo, uma paisagem, cenário. é uma foto tirada por uma câmera com resolução . A expectativa é um operador de média (operador de "desfocagem"?). O cenário pode conter muitas coisas, mas a foto que você tirou usando uma câmera com baixa resolução certamente fará com que alguns detalhes desapareçam, por exemplo, pode haver um OVNI no céu que pode ser visto a olho nu, mas isso não acontece. aparece na sua foto tirada por (iphone 3?)E[Y|σ(X)]E[Y|X]YE[Y|σ(X,Z)]σ(X,Z)

Se a resolução for tão alta que , essa imagem poderá capturar todos os detalhes do cenário real. Neste caso, temos .σ(X,Z)=σ(Y)E[Y|σ(Y)]=Y

Agora, pode ser visto como: usando outra câmera com resolução (por exemplo, iphone 1) menor que (por exemplo, iphone 3) e tire uma foto nessa imagem gerada pela câmera com resolução , então deve ficar claro que essa foto na foto deve ser a mesma que você originalmente basta usar uma câmera com baixa resolução no cenário.E[E[Y|σ(X,Z)]|σ(X)]σ(X)σ(X,Z)σ(X,Z)σ(X)

Isso fornece intuição em . De fato, essa mesma intuição nos diz que ainda. Isso ocorre porque: se sua primeira foto é tirada pelo iphone 1 (baixa resolução) e agora você deseja usar uma câmera melhor (por exemplo, iphone 3) para gerar outra foto na primeira foto, não há como você pode melhorar a qualidade da primeira foto.E[E[Y|X,Z]|X]=E[Y|X]E[E[Y|X]|X,Z]=E[Y|X]

KevinKim
fonte
2
adoro! :) ótima explicação.
jessica
1
@jessica Estou feliz que ajuda :-) Levei um tempo para chegar a esta explicação
KevinKim
21

Na Lei da Expectativa Iterada (LIE), , essa expectativa interna é uma variável aleatória que passa a ser uma função de , digamos , e não uma função de . Que a expectativa desta função de seja igual à expectativa de é uma conseqüência de uma MENTIRA. Tudo isso, de maneira manual, é apenas a afirmação de que o valor médio de pode ser encontrado pela média dos valores médios de em várias condições. Com efeito, tudo isso é apenas uma conseqüência direta da lei da probabilidade total. Por exemplo, se eE[E[YX]]=E[Y]Xg(X)YXYYYXY são variáveis ​​aleatórias discretas com pmf , então \ scriptstyle {\ texto {VD} ~ E [Y \ meados X] ~ \ texto {tem valor} ~ E [Y \ meados X = X] ~ \ texto {quando} ~ X = X} \ final {align} Aviso como essa última expectativa é em relação a ;pX,Y(x,y)

E[Y]=yypY(y)definition=yyxpX,Y(x,y)write in terms of joint pmf=yyxpYX(yX=x)pX(x)write in terms of conditional pmf=xpX(x)yypYX(yX=x)interchange order of summation=xpX(x)E[YX=x]inner sum is conditional expectation=E[E[YX]]RV E[YX] has value E[YX=x] when X=x
XE[YX] é uma função de , não de , mas, no entanto, a sua média é o mesmo que a média de .XYY

A MENTIRA generalizada que você está vendo tem à esquerda na qual a expectativa interna é uma função de duas variáveis ​​aleatórias e . O argumento é semelhante ao descrito acima, mas agora temos que mostrar que a variável aleatória é igual a outra variável aleatória. Fazemos isso observando o valor de quando tiver o valor . Ignorando as explicações, temos que E[E[YX,Z]X]h(X,Z)XZ E[YX]E[YX]Xx

E[YX=x]=yypYX(yX=x)=yypX,Y(x,y)pX(x)=yyzpX,Y,Z(x,y,z)pX(x)=yyzpYX,Z(yX=x,Z=z)pX,Z(x,z)pX(x)=zpX,Z(x,z)pX(x)yypYX,Z(yX=x,Z=z)=zpZX(zX=x)yypYX,Z(yX=x,Z=z)=zpZX(zX=x)E[YX=x,Z=z)=E[E[YX,Z]X=x]
Observe que o penúltimo lado direito é a fórmula do valor esperado condicional da variável aleatóriaZ] (uma função de e ) condicionadaE[YX,Z]XZsobre o valor de . Estamos fixando para ter o valor , multiplicando os valores da variável aleatória pelo valor condicional pmf de dado , e somando todos esses termos.XXxE[YX,Z]ZX

Assim, para cada valor da variável aleatória , o valor da variável aleatória (que observamos anteriormente é uma função de , não de ), é o mesmo que o valor da variável aleatória variável , ou seja, essas duas variáveis ​​aleatórias são iguais. Eu mentiria para você?X E [ Y | X ] X Y E [ E [ Y | X , Z ] | X ]xXE[YX]XYE[E[YX,Z]X]

Dilip Sarwate
fonte