Erro de previsão esperado - derivação

20

Estou lutando para entender a derivação do erro de previsão esperado abaixo (ESL), especialmente na derivação de 2.11 e 2.12 (condicionamento, o passo em direção ao mínimo pontual). Quaisquer ponteiros ou links muito apreciados.

Abaixo, estou relatando o trecho da ESL pág. 18. As duas primeiras equações são, em ordem, as equações 2.11 e 2.12.


Deixe denotar um vetor de entrada aleatória com valor real e uma variável de saída aleatória com valor real, com distribuição conjunta . Nós procuramos uma função para prever valores dados de entrada . Essa teoria requer uma função de perda para penalizar erros na previsão, e de longe o mais comum e conveniente é a perda de erro ao quadrado : . Isso nos leva a um critério para escolher ,XRpYRPr(X,Y)f(X)YXL ( Y , f ( X ) ) L ( Y , f ( X ) ) = ( Y - f ( X ) ) 2 f L(Y,f(X))L(Y,f(X))=(Yf(X))2f

EPE(f)=E(Yf(X))2=[yf(x)]2Pr(dx,dy)

o erro de previsão esperado (ao quadrado). Ao condicionar em , podemos escrever EPE comoX

EPE(f)=EXEY|X([Yf(X)]2|X)

e vemos que basta minimizar a EPE em termos de pontos:

f(x)=argmincEY|X([Yc]2|X)

A solução é

f(x)=E(Y|X=x)

a expectativa condicional, também conhecida como função de regressão .

user1885116
fonte
Trocar e na primeira equação no artigo da Wikipedia sobre Lei da Expectativa Total fornece a equivalência de (2,9) e (2,11). Leia esse artigo para obter provas. (2.12) é imediato, entendendo-se que deve ser escolhido para minimizar EPE. Y fXYf
whuber
3
Nota lateral: Isto é de Elements of Statistical Learning
Zhubarb 01/10/16
2
Para aqueles também de ler este livro, confira essas notas abrangentes por Weathermax e Epstein
Dodgie
@Dodgie Esse link morreu: (
Matthew Drury
2
@MatthewDrury Felizmente um googling de "Weathermax e Epstein estatísticas" retornou um destino como o primeiro resultado;) - waxworksmath.com/Authors/G_M/Hastie/WriteUp/...
Dodgie

Respostas:

16

EPE(f)=[yf(x)]2Pr(dx,dy)=[yf(x)]2p(x,y)dxdy=xy[yf(x)]2p(x,y)dxdy=xy[yf(x)]2p(x)p(y|x)dxdy=x(y[yf(x)]2p(y|x)dy)p(x)dx=x(EY|X([Yf(X)]2|X=x))p(x)dx=EXEY|X([Yf(X)]2|X=x)
user48002
fonte
3
Entendo o que você escreveu, mas você acha que, se o OP foi confundido pela derivação mostrada na pergunta, ele entenderá sua resposta? claro, eu já entendi a derivação mostrada na pergunta.
Mark L. Stone
Eu cheguei aqui do google com a mesma pergunta e realmente achei essa derivação exatamente o que eu precisava.
Ponto e vírgula e fita adesiva
1
@ MarkL.Stone - essa pode ser uma pergunta estúpida, mas você poderia explicar o que significa e como ele se torna ? Agradece a um grupop ( x , y ) d x d yPr(dx,dy)p(x,y)dxdy
Xavier Bourret Sicotte
1
O que se quer dizer com o primeiro é o último. Eu acho que é mais comum usar dP (x, y) ou dF (x, y). Em 1D, você verá frequentemente que dF (x) significa f (x) dx, onde f (x) é a função de densidade de probabilidade, mas a notação também pode permitir a função de massa de probabilidade discreta (em soma) ou mesmo uma mistura de densidade contínua e massa discreta de probabilidade.
Mark L. Stone
Não seria mais preciso dizer (última fórmula) ? EX(EY|X([Yf(X)]2|X=x))
D1X 31/01
11

A equação (2.11) é uma conseqüência da seguinte pequena igualdade. Para quaisquer duas variáveis ​​aleatórias e , e qualquer funçãoZ 2 gZ1Z2g

EZ1,Z2(g(Z1,Z2))=EZ2(EZ1Z2(g(Z1,Z2)Z2))

A notação é a expectativa sobre a distribuição conjunta . A notação diz essencialmente "integre a distribuição condicional de como se tivesse sido corrigido". E Z 1Z 2 Z 1 Z 2EZ1,Z2EZ1Z2Z1Z2

É fácil verificar isso no caso de e serem variáveis ​​aleatórias discretas, apenas desenrolando as definições envolvidasZ 2Z1Z2

EZ2(EZ1Z2(g(Z1,Z2)Z2))=EZ2(z1g(z1,Z2)Pr(Z1=z1Z2))=z2(z1g(z1,z2)Pr(Z1=z1Z2=z2))Pr(Z2=z2)=z1,z2g(z1,z2)Pr(Z1=z1Z2=z2)Pr(Z2=z2)=z1,z2g(z1,z2)Pr(Z1=z1,Z2=z2)=EZ1,Z2(g(Z1,Z2))

O caso contínuo pode ser visto informalmente como um limite desse argumento ou verificado formalmente quando todas as doações-papai teóricas da medida estão em vigor.

Para desenrolar o aplicativo, , e . Tudo se alinha exatamente.Z 2 = X g ( x , y ) = ( y - f ( x ) ) 2Z1=YZ2=Xg(x,y)=(yf(x))2

A afirmação (2.12) pede que consideremos minimizar

EXEYX(Yf(X))2

onde somos livres para escolher como desejamos. Mais uma vez, focando no caso discreto e caindo no meio do desenrolamento acima, vemos que estamos minimizandof

x(y(yf(x))2Pr(Y=yX=x))Pr(X=x)

Tudo dentro dos grandes parênteses é não negativo e você pode minimizar uma soma de quantidades não negativas, minimizando as somas individualmente. No contexto, isso significa que podemos escolher para minimizarf

y(yf(x))2Pr(Y=yX=x)

individualmente para cada valor discreto de . Esse é exatamente o conteúdo do que a ESL está reivindicando, apenas com notação mais sofisticada.x

Matthew Drury
fonte
8

Acho que algumas partes deste livro são expressas de uma maneira que é difícil de entender, especialmente para aqueles que não têm uma sólida formação em estatística.

Vou tentar simplificar e espero que você possa se livrar da confusão.

Reivindicação 1 (Suavização) E(X)=E(E(X|Y)),X,Y

Prova : Observe que E (Y) é uma constante, mas E (Y | X) é uma variável aleatória, dependendo de X.

E(E(X|Y))=E(X|Y=y)fY(y)dy=xfX|Y(x|y)dxfY(y)dy=xfX|Y(x|y)fY(y)dxdy=xfXY(x,y)dxdy=x(fXY(x,y)dy)dx=xfX(x)dx=E(X)

Reivindicação 2 :E(Yf(X))2E(YE(Y|X))2,f

Prova :

E((Yf(X))2|X)=E(([YE(Y|X)]+[E(Y|X)f(X)])2|X)=E((YE(Y|X))2|X)+E((E(Y|X)f(X))2|X)+2E((YE(Y|X))(E(Y|X)f(X))|X)=E((YE(Y|X))2|X)+E((E(Y|X)f(X))2|X)+2(E(Y|X)f(X))E(YE(Y|X))|X)( since E(Y|X)f(X) is constant given X)=E((YE(Y|X))2|X)+E((E(Y|X)f(X))2|X) ( use Claim 1 )E((YE(Y|X))2|X)

Tomando a expectativa de ambos os lados da equação acima, a Reivindicação 2 (QED)

Portanto, o ideal f éf(X)=E(Y|X)

thanhtang
fonte