Viés de otimismo - estimativas de erro de previsão

9

O livro Elements of Statistical Learning (disponível em PDF online) discute o viés otimista (7.21, página 229). Ele afirma que o viés de otimismo é a diferença entre o erro de treinamento e o erro dentro da amostra (erro observado se coletarmos novos valores de resultado em cada um dos pontos de treinamento originais) (conforme abaixo).

insira a descrição da imagem aqui

Em seguida, ele afirma que esse viés de otimismo ( ω ) é igual à covariância de nossos valores estimados de y e dos valores reais de y (fórmula abaixo). Tenho problemas para entender por que essa fórmula indica o viés do otimismo; ingenuamente, eu pensaria que uma forte covariância entre atual ye previsto yapenas descreve precisão - não otimismo. Deixe-me saber se alguém pode ajudar com a derivação da fórmula ou compartilhar a intuição.

insira a descrição da imagem aqui

user1885116
fonte
Muito útil, obrigado! Eu acho que uma das equações tem um erro de digitação menor e deve ser: =1Ni=1N(Ey[yi2]+Ey[y^i2]2Ey[yi]Ey[y^i]Ey[yi2]Ey[y^i2]+2E[yiy^i])
Sleepster

Respostas:

8

Vamos começar com a intuição.

Não há nada de errado em usar para prever y i . De fato, não usá-lo significaria que estamos descartando informações valiosas. No entanto, o mais que nós dependem nas informações contidas no y i para chegar a nossa previsão, mais excessivamente otimista nosso estimador será.yiy^iyi

y^iyiR2=1df(y^)=n

yyi=yi^=y¯i

Confira esta bela apostila de Ryan Tibshirani para mais detalhes sobre essa intuição


Agora, uma prova semelhante à outra resposta, mas com um pouco mais de explicação

Lembre-se de que, por definição, o otimismo médio é:

ω=Ey(Errinerr¯)

=Ey(1Ni=1NEY0[L(Yi0,f^(xi)|T)]1Ni=1NL(yi,f^(xi)))

Agora use uma função de perda quadrática e expanda os termos do quadrado:

=Ey(1Ni=1NEY0[(Yi0y^i)2]1Ni=1N(yiy^i)2))

=1Ni=1N(EyEY0[(Yi0)2]+EyEY0[y^i2]2EyEY0[Yi0y^i]Ey[yi2]Ey[y^i2]+2E[yiy^i])

EyEY0[(Yi0)2]=Ey[yi2]

=1Ni=1N(Ey[yi2]+Ey[yi^2]2Ey[yi]Ey[y^i]Ey[yi2]Ey[y^i2]+2E[yiy^i])

=2Ni=1N(E[yiy^i]Ey[yi]Ey[y^i])

Cov(x,w)=E[xw]E[x]E[w]

=2Ni=1NCov(yi,y^i)
cd98
fonte
5
Tenho de salientar que o seu nome está escrito "Ryan Tibshirani" Rob Tibshirani
Robert Tibshirani
2
Bem-vindo ao nosso site, Rob - é um privilégio tê-lo aqui, apenas para corrigir um erro! Se você vir mais alguma coisa, informe-nos: e, é claro, ficaríamos felizes com as respostas que você (ou seus alunos) gostaria de postar. Seu trabalho é amplamente mencionado neste site, principalmente ESL e Introdução ao Bootstrap.
whuber
EyEY0[(Yi0)2]=Ey[yi2]2EyEY0[Yi0y^i]=2Ey[EY0[Yi0]EY0[y^i]]=2Ey[yi]Ey[y^i]
7

f^(xi)=y^i

ω=Ey[op]=Ey[Errinerr¯]=Ey[Errin]Ey[err¯]=Ey[1Ni=1NEY0[L(Yi0,f^(xi))]Ey[1Ni=1NL(yi,f^(xi))]=1Ni=1NEyEY0[(Yi0y^i)2]Ey[(yiy^i)2]=1Ni=1NEyEY0[(Yi0)2]+EyEY0[y^i2]2EyEY0[Yi0y^i]Ey[yi2]Ey[y^i2]+2Ey[yiy^i]=1Ni=1NEy[yi2]+Ey[y^i2]2Ey[yi]Ey[y^i]Ey[yi2]Ey[y^i2]+2Ey[yiy^i]=2Ni=1NEy[yiy^i]Ey[yi]Ey[y^i]=2Ni=1NEy[yiy^iyiEy[y^i]Ey[yi]y^i+Ey[yi]Ey[y^i]]=2Ni=1NEy[(y^iEy[y^i])([yiEy[yi])]=2Ni=1Ncov(y^i,yi)
Maciej Lazarewicz
fonte
11
E[xw]E[x]E[w]=Cov(x,w)