Estou lutando para entender a derivação do erro de previsão esperado abaixo (ESL), especialmente na derivação de 2.11 e 2.12 (condicionamento, o passo em direção ao mínimo pontual). Quaisquer ponteiros ou links muito apreciados.
Abaixo, estou relatando o trecho da ESL pág. 18. As duas primeiras equações são, em ordem, as equações 2.11 e 2.12.
Deixe denotar um vetor de entrada aleatória com valor real e uma variável de saída aleatória com valor real, com distribuição conjunta . Nós procuramos uma função para prever valores dados de entrada . Essa teoria requer uma função de perda para penalizar erros na previsão, e de longe o mais comum e conveniente é a perda de erro ao quadrado : . Isso nos leva a um critério para escolher ,L ( Y , f ( X ) ) L ( Y , f ( X ) ) = ( Y - f ( X ) ) 2 f
o erro de previsão esperado (ao quadrado). Ao condicionar em , podemos escrever EPE como
e vemos que basta minimizar a EPE em termos de pontos:
A solução é
a expectativa condicional, também conhecida como função de regressão .
fonte
Respostas:
fonte
A equação (2.11) é uma conseqüência da seguinte pequena igualdade. Para quaisquer duas variáveis aleatórias e , e qualquer funçãoZ 2 gZ1 Z2 g
A notação é a expectativa sobre a distribuição conjunta . A notação diz essencialmente "integre a distribuição condicional de como se tivesse sido corrigido". E Z 1 ∣ Z 2 Z 1 Z 2EZ1,Z2 EZ1∣Z2 Z1 Z2
É fácil verificar isso no caso de e serem variáveis aleatórias discretas, apenas desenrolando as definições envolvidasZ 2Z1 Z2
O caso contínuo pode ser visto informalmente como um limite desse argumento ou verificado formalmente quando todas as doações-papai teóricas da medida estão em vigor.
Para desenrolar o aplicativo, , e . Tudo se alinha exatamente.Z 2 = X g ( x , y ) = ( y - f ( x ) ) 2Z1=Y Z2=X g(x,y)=(y−f(x))2
A afirmação (2.12) pede que consideremos minimizar
onde somos livres para escolher como desejamos. Mais uma vez, focando no caso discreto e caindo no meio do desenrolamento acima, vemos que estamos minimizandof
Tudo dentro dos grandes parênteses é não negativo e você pode minimizar uma soma de quantidades não negativas, minimizando as somas individualmente. No contexto, isso significa que podemos escolher para minimizarf
individualmente para cada valor discreto de . Esse é exatamente o conteúdo do que a ESL está reivindicando, apenas com notação mais sofisticada.x
fonte
Acho que algumas partes deste livro são expressas de uma maneira que é difícil de entender, especialmente para aqueles que não têm uma sólida formação em estatística.
Vou tentar simplificar e espero que você possa se livrar da confusão.
Reivindicação 1 (Suavização)E(X)=E(E(X|Y)),∀X,Y
Prova : Observe que E (Y) é uma constante, mas E (Y | X) é uma variável aleatória, dependendo de X.
Reivindicação 2 :E(Y−f(X))2≥E(Y−E(Y|X))2,∀f
Prova :
Tomando a expectativa de ambos os lados da equação acima, a Reivindicação 2 (QED)
Portanto, o ideal f éf(X)=E(Y|X)
fonte