Noções básicas sobre derivação de troca de polarização e desvio

20

Estou lendo o capítulo da troca de viés e variação de Os elementos do aprendizado estatístico e tenho dúvidas na fórmula da página 29. Deixe os dados surgirem de um modelo tal que onde é aleatório número com valor esperado e variância . Seja o valor esperado do erro do modelo onde é a previsão de do nosso aluno. De acordo com o livro, o erro é

Y=f(x)+ϵ
ε = E [ ε ] = 0 E [ ( ε - ε ) 2 ] = E [ ε 2 ] = σ 2 E [ ( Y - f k ( x ) ) 2 ] f k ( x ) x E [ ( Y -ϵϵ^=E[ϵ]=0E[(ϵϵ^)2]=E[ϵ2]=σ2
E[(Yfk(x))2]
fk(x)x
E[(Yfk(x))2]=σ2+Bias(fk)2+Var(fk(x)).

Minha pergunta é por que o termo viés não é 0? desenvolvendo a fórmula do erro, vejo

E[(Yfk(x))2]=E[(f(x)+ϵfk(x))2]=E[(f(x)fk(x))2]+2E[(f(x)fk(x))ϵ]+E[ϵ2]=Var(fk(x))+2E[(f(x)fk(x))ϵ]+σ2

como ϵ é um número aleatório independente 2E[(f(x)fk(x))ϵ]=2E[(f(x)fk(x))]E[ϵ]=0

Onde eu estou errado?

emanuele
fonte

Respostas:

20

Você não está errado, mas cometeu um erro em uma etapa desde E[(f(x)fk(x))2]Var(fk(x)) . E[(f(x)fk(x))2] é MSE(fk(x))=Var(fk(x))+Bias2(fk(x)) .

E[(Yfk(x))2]=E[(f(x)+ϵfk(x))2]=E[(f(x)fk(x))2]+2E[(f(x)fk(x))ϵ]+E[ϵ2]=E[(f(x)E(fk(x))+E(fk(x))fk(x))2]+2E[(f(x)fk(x))ϵ]+σ2=Var(fk(x))+Bias2(fk(x))+σ2.

Nota:E[(fk(x)E(fk(x)))(f(x)E(fk(x))]=E[fk(x)E(fk(x))](f(x)E(fk(x)))=0.

Greenparker
fonte
Em caso de resultados binários, existe uma prova equivalente com entropia cruzada como medida de erro?
Emanuele
1
Não funciona tão bem com uma resposta binária. Ver Ex 7.2 na segunda edição de "The Elements of Statistical Learning".
Matthew Drury
3
você poderia explicar como você vai de para ? Var(fk ( x ) ) + Viés 2 ( fE[(f(x)E(fk(x))+E(fk(x))fk(x))2]+2E[(f(x)fk(x))ϵ]+σ2Var(fk(x))+Bias2(fk(x))+σ2
Antoine
16

Mais alguns passos da decomposição de Polarização - Variância

De fato, a derivação completa raramente é dada em livros didáticos, pois envolve muita álgebra pouco inspiradora. Aqui está uma derivação mais completa usando a notação do livro "Elements of Statistical Learning" na página 223


Se assumirmos que e e , podemos derivar a expressão para o erro de previsão esperado de um ajuste de regressão em uma entrada usando perda de erro ao quadradoY=f(X)+ϵE[ϵ]=0Var(ϵ)=σϵ2f ( X ) X = x 0f^(X)X=x0

Err(x0)=E[(Yf^(x0))2|X=x0]

Para simplicidade de notação deixar , e recordação que ef^(x0)=f^f(x0)=fE[f]=fE[Y]=f

E[(Yf^)2]=E[(Yf+ff^)2]=E[(yf)2]+E[(ff^)2]+2E[(ff^)(yf)]=E[(f+ϵf)2]+E[(ff^)2]+2E[fYf2f^Y+f^f]=E[ϵ2]+E[(ff^)2]+2(f2f2fE[f^]+fE[f^])=σϵ2+E[(ff^)2]+0

Para o termo , podemos usar um truque semelhante ao descrito acima, adicionando e subtraindo para obterE[(ff^)2]E[f^]

E[(ff^)2]=E[(f+E[f^]E[f^]f^)2]=E[fE[f^]]2+E[f^E[f^]]2=[fE[f^]]2+E[f^E[f^]]2=Bias2[f^]+Var[f^]

Juntar as peças

E[(Yf^)2]=σϵ2+Bias2[f^]+Var[f^]


Alguns comentários sobre por queE[f^Y]=fE[f^]

Retirado de Alecos Papadopoulos aqui

Lembre-se de que é o preditor que construímos com base nos pontos de dados para que possamos escrever para lembrar disso.f^m{(x(1),y(1)),...,(x(m),y(m))} f = f mf^=f^m

Por outro lado, é a previsão que estamos fazendo em um novo ponto de dados usando o modelo construído nos pontos de dados acima. Portanto, o erro médio quadrático pode ser escrito comoY(x(m+1),y(m+1))m

E[f^m(x(m+1))y(m+1)]2

Expandindo a equação da seção anterior

E[f^mY]=E[f^m(f+ϵ)]=E[f^mf+f^mϵ]=E[f^mf]+E[f^mϵ]

A última parte da equação pode ser vista como

E[f^m(x(m+1))ϵ(m+1)]=0

Como fazemos as seguintes suposições sobre o ponto :x(m+1)

  • Foi não utilizado na construçãof^m
  • É independente de todas as outras observações{(x(1),y(1)),...,(x(m),y(m))}
  • É independente deϵ(m+1)

Outras fontes com derivações completas

Xavier Bourret Sicotte
fonte
1
Por que ? Eu não acho que e são independentes, uma vez que é essencialmente construída usando . Y f f YE[f^Y]=fE[f^]Yf^f^Y
Felipe Pérez
5
Mas a questão é essencialmente a mesma, por que ? A aleatoriedade de vem do erro então não vejo por que e seriam independentes e, portanto, . f ε f ε E ( f ε ) = 0E[f^ϵ]=0f^ϵf^ϵE(f^ϵ)=0
Felipe Pérez
Pela sua precisão, parece que a perspectiva dentro da amostra versus fora da amostra é crucial. É tão? Se trabalharmos apenas na amostra e, então, ver como residual, o tradeoff da variação de viés desaparece? ϵ
markowitz
1
@ FelipePérez até onde eu entendi, a aleatoriedade de vem da divisão de teste de trem (que pontos terminaram no conjunto de treinamento e deram como o preditor treinado). Em outras palavras, a variação de vem de todos os subconjuntos possíveis de um determinado conjunto de dados fixo que podemos usar como conjunto de treinamento. Como o conjunto de dados é fixo, não há aleatoriedade vinda de e, portanto, e são independentes. f f ε f εf^f^f^ϵf^ϵ
Alberto Santini