Acabei de receber uma cópia dos Elementos do aprendizado estatístico de Hastie, Tibshirani e Friedman. No capítulo 2 (Visão geral do aprendizado supervisionado), seção 4 (Teoria estatística da decisão), ele fornece uma derivação da função de regressão.
Deixe denotar um vetor de entrada aleatória com valor real e uma variável de saída aleatória com valor real, com distribuição conjunta . Nós procuramos uma função para prever valores dados de entrada . Essa teoria requer uma função de perda para penalizar erros na previsão, e de longe o mais comum e conveniente é a perda de erro ao quadrado: . Isso nos leva a um critério para escolher , Y ∈ R P r ( X , Y ) f ( X ) Y X L ( Y , f ( X ) ) L ( Y , f ( X ) ) = ( Y - f ( X ) ) 2 f
o esperado erro de previsão (ao quadrado).
Eu entendo completamente a configuração e a motivação. Minha primeira confusão é: ele quer dizer ou ? Segundo, nunca vi a notação . Alguém que pode me explicar seu significado? É apenas que ? Infelizmente, minha confusão não termina aí, E [ ( Y - f ( x ) ) 2 ] P r ( d x , d y ) P r ( d x ) = P r ( x ) d x
Ao condicionar em , podemos escrever como
Sinto falta da conexão entre essas duas etapas e não estou familiarizado com a definição técnica de "condicionamento". Deixe-me saber se eu posso esclarecer alguma coisa! Penso que a maior parte da minha confusão surgiu de notações desconhecidas; Estou confiante de que, se alguém puder dividir essa derivação em inglês simples, eu entendi. Obrigado stats.SE!
fonte