Problema com a prova da expectativa condicional como melhor preditor

19

Eu tenho um problema com a prova de

E(Y|X)argming(X)E[(Yg(X))2]

que muito provavelmente revelam um mal-entendido mais profundo de expectativas e expectativas condicionais.

A prova que eu conheço é a seguinte (outra versão dessa prova pode ser encontrada aqui )

argming(X)E[(Yg(x))2]=argming(X)E[(YE(Y|X)+E(Y|X)g(X))2]=argming(x)E[(YE(Y|X))2+2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]=argming(x)E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]

A prova geralmente continua com um argumento que mostra que 2E[(YE(Y|X))(E(Y|X)g(X))]=0 e, portanto,

argming(x)E[(Yg(x))2]=argming(x)E[(E(Y|X)g(X))2]

que pode ser visto como minimizado quando g(X)=E(Y|X) .

Meus quebra-cabeças sobre a prova são os seguintes:

  1. Considerar

E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2] .

Parece-me que, independentemente de qualquer argumento que mostre que o primeiro termo é sempre igual a zero, pode-se ver que a configuração g(X)=E(Y|X) minimiza a expressão como implica (E(Y|X)g(X))=0 e, portanto,

E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]=E(0+0) = 0.

Mas se isso for verdade, pode-se repetir a prova substituindo por qualquer outra função de , digamos , e chegar à conclusão de que é que minimiza a expressão. Então deve haver algo que eu não entendo (certo?).X h ( X ) h ( X )E(Y|X)Xh(X)h(X)

  1. Eu tenho algumas dúvidas sobre o significado de na declaração do problema. Como a notação deve ser interpretada? Quer dizerE[(Yg(X))2]

EX[(Yg(X))2] , ou ?EY[(Yg(X))2]EXY[(Yg(X))2]

Martin Van der Linden
fonte

Respostas:

11

(Esta é uma adaptação de Granger & Newbold (1986) "Forecasting Economic Time Series").

Por construção, sua função de custo de erro é . Isso incorpora uma suposição crítica (de que a função de custo de erro é simétrica em torno de zero) - uma função de custo de erro diferente não teria necessariamente o valor esperado condicional como oargumentomínimodo seu valor esperado. Você não pode minimizar sua função de custo de erro porque ela contém quantidades desconhecidas. Então você decide minimizar o valor esperado. Então sua função objetivo se torna[Yg(X)]2argmin

E[Yg(X)]2=[yg(X)]2fY|X(y|x)dy

que eu acredito que responde também a sua segunda pergunta. É intuitivo que o valor esperado será de condicional em X , uma vez que estamos tentando estimar / previsão Y baseado em X . Decomponha o quadrado para obterYXYX

E[Yg(X)]2=y2fY|X(y|x)dy2g(X)yfY|X(y|x)dy+[g(X)]2fY|X(y|x)dy

O primeiro termo não contém portanto não afeta a minimização e pode ser ignorado. A integral no segundo termo é igual ao valor condicional esperado de Y, dado X , e a integral no último termo é igual à unidade. entãog(X)YX

argming(x)E[Y-g(X)]2=argming(x){-2g(X)E(YX)+[g(X)]2}

A primeira derivada wrt é - 2 E ( Y X ) + 2 g ( X ) levando à condição de primeira ordem para minimização g ( X ) = E ( Y X ) enquanto a segunda derivada é igual a 2 > 0, o suficiente para um mínimo.g(X)2E(YX)+2g(X)g(X)=E(YX)2>0

ADENDO: A lógica da abordagem de prova "adicionar e subtrair".

O OP está intrigado com a abordagem declarada na pergunta, porque parece tautológica. Não é, porque, ao usar a tática de adicionar e subtrair, torna zero uma parte específica da função objetivo para uma escolha arbitrária do termo que é adicionado e subtraído, NÃO iguala a função value , ou seja, o valor do objetivo função avaliada no minimizador candidato.

Para a escolha , temos a função de valor V ( E ( Y X ) ) = E [ ( Y - E ( Y X ) ) 2X ] Para a escolha arbitrária g ( X ) = h ( X ) temos a função de valor V ( h (g(X)=E(YX)V(E(YX))=E[(YE(YX))2X]g(X)=h(X) .V(h(X))=E[(Yh(X))2X]

Eu afirmo que

E ( Y 2X ) - 2 E [ ( Y E ( Y X ) ) X ] + E [ ( E ( Y X ) ) 2X ]

V(E(YX))V(h(X))
E(Y2X)2E[(YE(YX))X]+E[(E(YX))2X]E(Y2X)2E[(Yh(X))X]+E[(h(X))2X]

O primeiro mandato do LHS e do RHS é cancelado. Além disso, note que a expectativa exterior é condicional em . Pelas propriedades das expectativas condicionais, terminamos comX

...2E(YX)E(YX)+[E(YX)]22E(YX)h(X)+[h(X)]2

0[E(YX)]22E(YX)h(X)+[h(X)]2

que se aplica com estrita desigualdade se h ( x ) E ( Y X ) . Portanto, E ( Y X ) é o minimizador global e exclusivo.

0[E(YX)h(x)]2
h(x)E(YX)E(YX)

Mas isso também diz que a abordagem "adicionar e subtrair" não é a maneira mais esclarecedora de prova aqui.

Alecos Papadopoulos
fonte
Obrigado pela resposta. Isso ajuda a esclarecer minha segunda pergunta. Como tentei transmitir no título da pergunta, meu principal problema (o primeiro no post) era mais sobre o mecanismo de prova. Minha principal preocupação é com minha compreensão da prova que apresentei na pergunta. Como expliquei, meu entendimento da prova me leva a uma afirmação flagrantemente problemática. Então, eu gostaria de entender se meu erro é, pois pode revelar alguns mal-entendidos mais profundos sobre os conceitos de expectativa e condição condicional. Alguma idéia sobre isso?
Martin Van der Linden
1
Eu adicionei algumas explicações sobre a abordagem "adicionar e subtrair" à prova.
Alecos Papadopoulos
E[2(Yh(X))(h(X)g(X))+(h(X)g(X))2]=0g(X)=h(X)h(X)(Yh(X))(h(X)g(X))g(X)E[2(Yh(X))(h(X)g(X))+(h(X)g(X))2]<0.
Martin Van der Linden
1
Hmmm ... o sinal de menos na expressão a que você se refere é um erro - deve ser um sinal de mais. É claro que você poderia reorganizar os termos para obter novamente um sinal de menos ... isso prejudica a intuição que você ganhou?
Alecos Papadopoulos
Obrigado por acompanhar a pergunta. Editei a postagem inicial para corrigir esse erro. Felizmente, acho que isso não prejudica a intuição adquirida. Na verdade, isso me ajuda a entender outro erro: eu estava assumindo que o sinal de menos era importante para garantir que0 0 não era necessariamente o mínimo de E[-2(Y-h(X))(h(X)-g(X))+(h(X)-g(X))2]. Mas percebo que não se trata apenas do sinal antes do 2. (Espero) O que eu realmente precisava entender é que, em geral (por exemplo, parah(X)) E[2(Y-h(X))(h(X)-g(X))] não precisa ser minimizado quando g(X)=h(X) (certo?).
Martin Van der Linden
5

Observe que, para provar a resposta, você realmente só precisa mostrar que

E[-2(Y-E(Y|X))(E(Y|X)-g(X))]=0 0

Quanto a qual expectativa levar, você a leva condicionalmente, caso contrário, o termo

argming(X)E[(Y-g(X))2]

Não faz sentido, como g(X) é uma variável aleatória se E é EXY e não EY|X. Mostre que você realmente deve escreverE[(Y-g(X))2|X] ou EY|X[(Y-g(X))2]para deixar isso claro. Agora, com esse esclarecimento, o termo(E(Y|X)-g(X)) é uma constante e pode ser puxada para fora da expecation, e você tem:

-2(E(Y|X)-g(X))E[(Y-E(Y|X))|X]=-2(E(Y|X)-g(X))[E(Y|X)-E[E(Y|X)|X]]=-2(E(Y|X)-g(X))[E(Y|X)-E(Y|X)]=0 0

Portanto, você pode escrever a função objetivo como:

EY|X[(Y-g(X))2]=EY|X[(Y-EY|X(Y|X))2]+(EY|X(Y|X)-g(X))2

O minimizador é óbvio a partir daqui. Observe que, se você tiver uma média de mais deX também, um argumento muito semelhante pode ser usado para mostrar:

EX[(E(Y|X)-g(X))2]=EX[(EY|X(Y|X)-EX[EY|X(Y|X)])2]+(EX[EY|X(Y|X)]-EX[g(X)])2

Isso mostra que se você definir g(X)=EY|X(Y|X) para cada X, você também terá um minimizador sobre essa função. Então, em certo sentido, não importa realmente seE é EYX ou EY|X.

probabilityislogic
fonte
3

Há um ponto de vista matemático que é muito simples. O que você tem é um problema de projeção em um espaço de Hilbert, como projetar um vetor emRn em um subespaço.

Deixei (Ω,F,μ)denotar o espaço de probabilidade subjacente. Para que o problema faça sentido, considere as variáveis ​​aleatórias com segundos momentos finitos, ou seja, o espaço de Hilberteu2(Ω,F,μ). O problema agora é este: dadoX,Yeu2(Ω,F,μ), encontre a projeção de Y no subespaço eu2(Ω,FX,μ), Onde FX é o σ-subalgebra de F gerado por X. (Assim como no caso dimensional finito, minimizareu2distância para um subespaço significa encontrar a projeção). A projeção desejada éE(X|Y), por construção. (Isso realmente caracterizaE(X|Y), se alguém inspecionar a prova de existência).

Michael
fonte
Esta é uma bela resposta.
jII 18/03/2015
0

Em relação à sua última pergunta, a expectativa pode ser errada p(x,y) (o erro incondicional) ou wrt p(yx) (o erro condicional em cada valor X=x) Felizmente, minimizando o erro condicional em cada valorX=x também minimiza o erro incondicional, portanto, essa não é uma distinção crucial.

Ulisses Braga-Neto
fonte