(Esta é uma adaptação de Granger & Newbold (1986) "Forecasting Economic Time Series").
Por construção, sua função de custo de erro é . Isso incorpora uma suposição crítica (de que a função de custo de erro é simétrica em torno de zero) - uma função de custo de erro diferente não teria necessariamente o valor esperado condicional como oargumentomínimodo seu valor esperado. Você não pode minimizar sua função de custo de erro porque ela contém quantidades desconhecidas. Então você decide minimizar o valor esperado. Então sua função objetivo se torna[Y−g(X)]2argmin
E[Y−g(X)]2=∫∞−∞[y−g(X)]2fY|X(y|x)dy
que eu acredito que responde também a sua segunda pergunta. É intuitivo que o valor esperado será de condicional em X , uma vez que estamos tentando estimar / previsão Y baseado em X . Decomponha o quadrado para obterYXYX
E[Y−g(X)]2=∫∞−∞y2fY|X(y|x)dy−2g(X)∫∞−∞yfY|X(y|x)dy+[g(X)]2∫∞−∞fY|X(y|x)dy
O primeiro termo não contém portanto não afeta a minimização e pode ser ignorado. A integral no segundo termo é igual ao valor condicional esperado de Y, dado X , e a integral no último termo é igual à unidade. entãog(X)YX
argming( X )E[ Y- g( X) ]2= argming( X ){ -2g( X) E( Y∣ X) + [ g( X) ]2}
A primeira derivada wrt é - 2 E ( Y ∣ X ) + 2 g ( X ) levando à condição de primeira ordem para minimização g ( X ) = E ( Y ∣ X ) enquanto a segunda derivada é igual a 2 > 0, o suficiente para um mínimo.g( X)- 2 E( Y∣ X)+2g(X)g(X)=E(Y∣X)2>0
ADENDO: A lógica da abordagem de prova "adicionar e subtrair".
O OP está intrigado com a abordagem declarada na pergunta, porque parece tautológica. Não é, porque, ao usar a tática de adicionar e subtrair, torna zero uma parte específica da função objetivo para uma escolha arbitrária do termo que é adicionado e subtraído, NÃO iguala a função value , ou seja, o valor do objetivo função avaliada no minimizador candidato.
Para a escolha , temos a função de valor V ( E ( Y ∣ X ) ) = E [ ( Y - E ( Y ∣ X ) ) 2 ∣ X ]
Para a escolha arbitrária g ( X ) = h ( X ) temos a função de valor V ( h (g(X)=E(Y∣X)V(E(Y∣X))=E[(Y−E(Y∣X))2∣X]g(X)=h(X) .V(h(X))=E[(Y−h(X))2∣X]
Eu afirmo que
⇒ E ( Y 2 ∣ X ) - 2 E [ ( Y E ( Y ∣ X ) ) ∣ X ] + E [ ( E ( Y ∣ X ) ) 2 ∣ X ]
V(E(Y∣X))≤V(h(X))
⇒E(Y2∣X)−2E[(YE(Y∣X))∣X]+E[(E(Y∣X))2∣X]≤E(Y2∣X)−2E[(Yh(X))∣X]+E[(h(X))2∣X]
O primeiro mandato do LHS e do RHS é cancelado. Além disso, note que a expectativa exterior é condicional em . Pelas propriedades das expectativas condicionais, terminamos comX
...⇒−2E(Y∣X)⋅E(Y∣X)+[E(Y∣X)]2≤−2E(Y∣X)h(X)+[h(X)]2
⇒0≤[E(Y∣X)]2−2E(Y∣X)h(X)+[h(X)]2
que se aplica com estrita desigualdade se h ( x ) ≠ E ( Y ∣ X ) . Portanto, E ( Y ∣ X ) é o minimizador global e exclusivo.
⇒0≤[E(Y∣X)−h(x)]2
h(x)≠E(Y∣X)E(Y∣X)
Mas isso também diz que a abordagem "adicionar e subtrair" não é a maneira mais esclarecedora de prova aqui.
Observe que, para provar a resposta, você realmente só precisa mostrar que
Quanto a qual expectativa levar, você a leva condicionalmente, caso contrário, o termo
Não faz sentido, comog( X) é uma variável aleatória se E é EXY e não EY| X . Mostre que você realmente deve escreverE[ ( Y- g( X) ))2| X] ou EY| X[ ( Y- g( X) ))2] para deixar isso claro. Agora, com esse esclarecimento, o termo( E( Y| X) - g( X) )) é uma constante e pode ser puxada para fora da expecation, e você tem:
Portanto, você pode escrever a função objetivo como:
O minimizador é óbvio a partir daqui. Observe que, se você tiver uma média de mais deX também, um argumento muito semelhante pode ser usado para mostrar:
Isso mostra que se você definirg( X) = EY| X( Y| X) para cada X , você também terá um minimizador sobre essa função. Então, em certo sentido, não importa realmente seE é EYX ou EY| X .
fonte
Há um ponto de vista matemático que é muito simples. O que você tem é um problema de projeção em um espaço de Hilbert, como projetar um vetor emRn em um subespaço.
Deixei( Ω , F, μ ) denotar o espaço de probabilidade subjacente. Para que o problema faça sentido, considere as variáveis aleatórias com segundos momentos finitos, ou seja, o espaço de Hilberteu2( Ω , F, μ ) . O problema agora é este: dadoX, Y∈ L2( Ω , F, μ ) , encontre a projeção de Y no subespaço eu2( Ω , FX, μ ) , Onde FX é o σ -subalgebra de F gerado por X . (Assim como no caso dimensional finito, minimizareu2 distância para um subespaço significa encontrar a projeção). A projeção desejada éE( X| Y) , por construção. (Isso realmente caracterizaE( X| Y) , se alguém inspecionar a prova de existência).
fonte
Em relação à sua última pergunta, a expectativa pode ser erradap ( x , y) (o erro incondicional) ou wrt p ( y∣ x ) (o erro condicional em cada valor X= x ) Felizmente, minimizando o erro condicional em cada valorX= x também minimiza o erro incondicional, portanto, essa não é uma distinção crucial.
fonte