Estou lendo o capítulo da troca de viés e variação de Os elementos do aprendizado estatístico e tenho dúvidas na fórmula da página 29. Deixe os dados surgirem de um modelo tal que onde é aleatório número com valor esperado e variância . Seja o valor esperado do erro do modelo
onde é a previsão de do nosso aluno. De acordo com o livro, o erro é
Y=f(x)+ϵ
ε = E [ ε ] = 0 E [ ( ε - ε ) 2 ] = E [ ε 2 ] = σ 2 E [ ( Y - f k ( x ) ) 2 ] f k ( x ) x E [ ( Y -ϵϵ^=E[ϵ]=0E[(ϵ−ϵ^)2]=E[ϵ2]=σ2E[(Y−fk(x))2]
fk(x)xE[(Y−fk(x))2]=σ2+Bias(fk)2+Var(fk(x)).
Minha pergunta é por que o termo viés não é 0? desenvolvendo a fórmula do erro, vejo
E[(Y−fk(x))2]=E[(f(x)+ϵ−fk(x))2]=E[(f(x)−fk(x))2]+2E[(f(x)−fk(x))ϵ]+E[ϵ2]=Var(fk(x))+2E[(f(x)−fk(x))ϵ]+σ2
como ϵ é um número aleatório independente 2E[(f(x)−fk(x))ϵ]=2E[(f(x)−fk(x))]E[ϵ]=0
Onde eu estou errado?
Mais alguns passos da decomposição de Polarização - Variância
De fato, a derivação completa raramente é dada em livros didáticos, pois envolve muita álgebra pouco inspiradora. Aqui está uma derivação mais completa usando a notação do livro "Elements of Statistical Learning" na página 223
Se assumirmos que e e , podemos derivar a expressão para o erro de previsão esperado de um ajuste de regressão em uma entrada usando perda de erro ao quadradoY= f( X) + ϵ E[ ϵ ] = 0 Va r ( ϵ ) = σ2ϵ f ( X ) X = x 0f^( X) X= x0 0
Para simplicidade de notação deixar , e recordação que ef^( x0 0) = f^ f( x0 0) = f E[f] = f E[ Y] = f
Para o termo , podemos usar um truque semelhante ao descrito acima, adicionando e subtraindo para obterE[ (f- f^)2] E[ f^]
Juntar as peças
Alguns comentários sobre por queE[ f^Y] = fE[ f^]
Retirado de Alecos Papadopoulos aqui
Lembre-se de que é o preditor que construímos com base nos pontos de dados para que possamos escrever para lembrar disso.f^ m { ( x( 1 ), y( 1 )) , . . . , ( x( M ), y( M )) } f = f mf^= f^m
Por outro lado, é a previsão que estamos fazendo em um novo ponto de dados usando o modelo construído nos pontos de dados acima. Portanto, o erro médio quadrático pode ser escrito comoY ( x( m + 1 ), y( m + 1 )) m
Expandindo a equação da seção anterior
A última parte da equação pode ser vista como
Como fazemos as seguintes suposições sobre o ponto :x( m + 1 )
Outras fontes com derivações completas
fonte