Confuso com a derivação da função de regressão

9

Acabei de receber uma cópia dos Elementos do aprendizado estatístico de Hastie, Tibshirani e Friedman. No capítulo 2 (Visão geral do aprendizado supervisionado), seção 4 (Teoria estatística da decisão), ele fornece uma derivação da função de regressão.

Deixe denotar um vetor de entrada aleatória com valor real e uma variável de saída aleatória com valor real, com distribuição conjunta . Nós procuramos uma função para prever valores dados de entrada . Essa teoria requer uma função de perda para penalizar erros na previsão, e de longe o mais comum e conveniente é a perda de erro ao quadrado: . Isso nos leva a um critério para escolher , Y R P r ( X , Y ) f ( X ) Y X L ( Y , f ( X ) ) L ( Y , f ( X ) ) = ( Y - f ( X ) ) 2 fXRpYRPr(X,Y)f(X)YXL(Y,f(X))L(Y,f(X))=(Yf(X))2f

EPE(f)=E(Yf(X))2=[yf(x)]2Pr(dx,dy)
o esperado erro de previsão (ao quadrado).

Eu entendo completamente a configuração e a motivação. Minha primeira confusão é: ele quer dizer ou ? Segundo, nunca vi a notação . Alguém que pode me explicar seu significado? É apenas que ? Infelizmente, minha confusão não termina aí, E [ ( Y - f ( x ) ) 2 ] P r ( d x , d y ) P r ( d x ) = P r ( x ) d xE[(Yf(x))]2E[(Yf(x))2]Pr(dx,dy)Pr(dx)=Pr(x)dx

Ao condicionar em , podemos escrever comoXEPE

EPE(f)=EXEY|X([Yf(X)]2|X)

Sinto falta da conexão entre essas duas etapas e não estou familiarizado com a definição técnica de "condicionamento". Deixe-me saber se eu posso esclarecer alguma coisa! Penso que a maior parte da minha confusão surgiu de notações desconhecidas; Estou confiante de que, se alguém puder dividir essa derivação em inglês simples, eu entendi. Obrigado stats.SE!

Orangutango
fonte

Respostas:

11

Para sua primeira confusão, deve ser Expectativa de erro ao quadrado, então éE[(Yf(x))2].

Para a notação de , é igual a , onde é o pdf conjunto de x e y. E , isso pode ser interpretado como a probabilidade de x estar dentro de um pequeno intervalo de é igual ao valor de pdf no ponto , ou seja, vezes o comprimento do intervalo .Pr(dx,dy)g(x,y)dxdyg(x,y)Pr(dx)=f(x)dx[x,x+dx]xf(x)dx

A equação sobre o EPE deriva do teorema para quaisquer duas variáveis aleatórias e . Você pode provar isso usando a distribuição condicional. A expectativa condicional é a expectativa calculada usando a distribuição condicional. A distribuição condicional significa a probabilidade de depois que você sabe algo sobre .E(E(Y|X))=E(Y)XYY|XYX

No nosso caso, suponha que denotemos o erro ao quadrado como uma função , o EPE está calculandoL(x,y)=(yf(x))2

E(L(x,y))=L(x,y)g(x,y)dxdy=[L(x,y)g(y|x)g(x)dy]dx=[L(x,y)g(y|x)dy]g(x)dx=[EY|X(L(x,y)]g(x)dx=EX(EY|X(L(x,y)))

O resultado acima corresponde ao resultado que você listou. Espero que isso possa ajudá-lo um pouco.

Jerry
fonte
1
Para o resultado final após o condicionamento, o livro também possui o | X, enquanto o resultado final desta resposta está ausente. É importante?
precisa saber é o seguinte