Recentemente me deparei com essa identidade:
Obviamente, eu estou familiarizado com a versão mais simples dessa regra, a saber, que mas não consegui encontrar justificativa para sua generalização.
Ficaria grato se alguém pudesse me indicar uma referência não tão técnica para esse fato ou, melhor ainda, se alguém pudesse apresentar uma prova simples desse importante resultado.
Respostas:
TRATAMENTO INFORMAL
Devemos lembrar que a notação em que condicionamos as variáveis aleatórias é imprecisa, embora econômica, como notação. Na realidade, condicionamos na sigma-álgebra que essas variáveis aleatórias geram. Em outras palavras, significa . Essa observação pode parecer deslocada em um "Tratamento Informal", mas nos lembra que nossas entidades condicionantes são coleções de conjuntos (e quando condicionamos em um único valor, esse é um conjunto único). E o que esses conjuntos contêm? Eles contêm a informação com a qual os valores possíveis da variável aleatória fornecer-nos sobre o que pode acontecer com a realização de .E[Y∣X] X Y σ ( X ) ⊆ σ ( X , Z ) Y σ ( X , Z ) σ ( X ) σ ( X ) ≡ eu x σ ( X , Z ) ≡ I x zE[Y∣σ(X)] X Y σ(X)⊆σ(X,Z) Y σ(X,Z) σ(X)
σ(X)≡Ix σ(X,Z)≡Ixz
A introdução do conceito de informação nos permite pensar (e usar) a Lei das Expectativas Iteradas (às vezes chamada de "Propriedade da Torre") de uma maneira muito intuitiva:
a álgebra sigma gerada por duas variáveis aleatórias é pelo menos tão grande como aquele gerado por uma variável aleatória: no significado apropriado da teoria dos conjuntos. Portanto, as informações sobre contidas em são pelo menos tão grandes quanto as informações correspondentes em . Agora, como sugestão notacional, defina e . Então o LHS da equação que estamos olhando, pode ser escrito
Y I x z I x
De alguma forma, podemos "levar em conta" ? Não - só sabemos . Mas se usarmos o que temos (como somos obrigados pela expressão que queremos resolver), então estamos essencialmente dizendo coisas sobre sob o operador de expectativas, ou seja, dizemos " ", não mais - acabamos de esgotar nossas informações. I x Y E ( Y ∣ I x )Ixz Ix Y E(Y∣Ix)
Portanto,
Se alguém não o fizer, voltarei para o tratamento formal.
A (pouco mais) TRATAMENTO FORMAL
Vejamos como dois livros muito importantes da teoria das probabilidades, Probabilidade e Medida de P. Billingsley (3d ed.-1995) e D. Williams "Probabilidade com Martingales" (1991), tratam a questão de provar a "Lei das Expectativas Iteradas":
Billingsley dedica exatamente três linhas à prova. Williams, e cito, diz
Essa é uma linha de texto. A prova de Billingsley não é menos opaca.
É claro que eles estão certos: essa propriedade importante e muito intuitiva da expectativa condicional deriva essencialmente diretamente (e quase imediatamente) de sua definição - o único problema é que suspeito que essa definição não seja normalmente ensinada, ou pelo menos não destacada, pela probabilidade externa ou medir círculos teóricos. Mas, para mostrar (quase) três linhas que a Lei das Expectativas Iteradas mantém, precisamos da definição de expectativa condicional, ou melhor, de sua propriedade definidora .
Deixe um espaço de probabilidade , e uma variável aleatória integrável . Vamos ser um sub- -álgebra de , . Existe uma função que é mensurável, é integrável e (esta é a propriedade que define)Y G σ F G ⊆ F W G(Ω,F,P) Y G σ F G⊆F W G
onde é a função de indicador do conjunto . Dizemos que é ("uma versão de") a expectativa condicional de dada , e escrevemos O detalhe crítico a ser observado aqui é que a expectativa condicional , tem o mesmo valor esperado como faz, não apenas sobre toda a , mas em cada subconjunto de . G W Y G W = E ( Y ∣ G )1G G W Y G S G G GW=E(Y∣G)a.s.
Y G G G
(Tentarei agora apresentar como a propriedade Tower deriva da definição de expectativa condicional).
Como , as equações e nos dãoH⊆G [1] [2]
Mas esta é a propriedade que define a esperança condicional de dada .Y H Portanto, temos o direito de escrever
uma vez que também tem por construção , que apenas se mostrou a propriedade de torre, ou o forma geral da Lei das Expectativas Iteradas - em oito linhas.U=E(Y∣H)a.s.
U=E(W∣H)=E(E[Y∣G]∣H)
fonte
A maneira como entendo a expectativa condicional e ensino meus alunos é a seguinte:
expectativa condicional é uma foto tirada por uma câmera com resoluçãoE[Y|σ(X)] σ(X)
Como mencionado por Alecos Papadopoulos, a notação é mais precisa que . Ao longo da linha da câmera, pode-se pensar em como o objeto original, por exemplo, uma paisagem, cenário. é uma foto tirada por uma câmera com resolução . A expectativa é um operador de média (operador de "desfocagem"?). O cenário pode conter muitas coisas, mas a foto que você tirou usando uma câmera com baixa resolução certamente fará com que alguns detalhes desapareçam, por exemplo, pode haver um OVNI no céu que pode ser visto a olho nu, mas isso não acontece. aparece na sua foto tirada por (iphone 3?)E[Y|σ(X)] E[Y|X] Y E[Y|σ(X,Z)] σ(X,Z)
Se a resolução for tão alta que , essa imagem poderá capturar todos os detalhes do cenário real. Neste caso, temos .σ(X,Z)=σ(Y) E[Y|σ(Y)]=Y
Agora, pode ser visto como: usando outra câmera com resolução (por exemplo, iphone 1) menor que (por exemplo, iphone 3) e tire uma foto nessa imagem gerada pela câmera com resolução , então deve ficar claro que essa foto na foto deve ser a mesma que você originalmente basta usar uma câmera com baixa resolução no cenário.E[E[Y|σ(X,Z)]|σ(X)] σ(X) σ(X,Z) σ(X,Z) σ(X)
Isso fornece intuição em . De fato, essa mesma intuição nos diz que ainda. Isso ocorre porque: se sua primeira foto é tirada pelo iphone 1 (baixa resolução) e agora você deseja usar uma câmera melhor (por exemplo, iphone 3) para gerar outra foto na primeira foto, não há como você pode melhorar a qualidade da primeira foto.E[E[Y|X,Z]|X]=E[Y|X] E[E[Y|X]|X,Z]=E[Y|X]
fonte
Na Lei da Expectativa Iterada (LIE), , essa expectativa interna é uma variável aleatória que passa a ser uma função de , digamos , e não uma função de . Que a expectativa desta função de seja igual à expectativa de é uma conseqüência de uma MENTIRA. Tudo isso, de maneira manual, é apenas a afirmação de que o valor médio de pode ser encontrado pela média dos valores médios de em várias condições. Com efeito, tudo isso é apenas uma conseqüência direta da lei da probabilidade total. Por exemplo, se eE[E[Y∣X]]=E[Y] X g(X) Y X Y Y Y X Y são variáveis aleatórias discretas com pmf , então
\ scriptstyle {\ texto {VD} ~ E [Y \ meados X] ~ \ texto {tem valor} ~ E [Y \ meados X = X] ~ \ texto {quando} ~ X = X} \ final {align}
Aviso como essa última expectativa é em relação a ;pX,Y(x,y)
A MENTIRA generalizada que você está vendo tem à esquerda na qual a expectativa interna é uma função de duas variáveis aleatórias e . O argumento é semelhante ao descrito acima, mas agora temos que mostrar que a variável aleatória é igual a outra variável aleatória. Fazemos isso observando o valor de quando tiver o valor . Ignorando as explicações, temos queE[E[Y∣X,Z]∣X] h(X,Z) X Z E[Y∣X] E[Y∣X] X x
Assim, para cada valor da variável aleatória , o valor da variável aleatória (que observamos anteriormente é uma função de , não de ), é o mesmo que o valor da variável aleatória variável , ou seja, essas duas variáveis aleatórias são iguais. Eu mentiria para você?X E [ Y | X ] X Y E [ E [ Y | X , Z ] | X ]x X E[Y∣X] X Y E[E[Y∣X,Z]∣X]
fonte