Na pág. 34 de Introdução à aprendizagem estatística :
Embora a prova matemática esteja além do escopo deste livro, é possível mostrar que o teste esperado MSE, para um determinado valor , sempre pode ser decomposto na soma de três quantidades fundamentais: a variação de , o viés quadrado de e a variação dos termos de erro . Isso é,
[...] Variação refere-se à quantidade pela qual mudaria se a estimassemos usando um conjunto de dados de treinamento diferente.
Pergunta: Como parece indicar a variação de funções , o que isso significa formalmente?
Ou seja, eu estou familiarizado com o conceito de variação de uma variável aleatória , mas e a variação de um conjunto de funções? Isso pode ser pensado apenas como a variação de outra variável aleatória cujos valores assumem a forma de funções?
fonte
Respostas:
Sua correspondência com @whuber está correta.
Um algoritmo de aprendizado pode ser visto como uma função de nível superior, mapeando conjuntos de treinamento para funções.A
onde é o espaço de possíveis conjuntos de treinamento. Isso pode ser um pouco complicado, mas basicamente cada conjunto de treinamento individual resulta, após o uso do algoritmo de treinamento do modelo, em uma função específica que pode ser usada para fazer previsões com base no ponto de dados .T f x
Se visualizarmos o espaço dos conjuntos de treinamento como um espaço de probabilidade, para que haja alguma distribuição de possíveis conjuntos de dados de treinamento, o algoritmo de treinamento do modelo se tornará uma variável aleatória com valor de função e podemos pensar em conceitos estatísticos. Em particular, se fixarmos um ponto de dados específico , obteremos a variável aleatória com valor numéricox0
Ou seja, primeiro treine o algoritmo em e, em seguida, avalie o modelo resultante em . Esta é apenas uma variável aleatória simples, mas engenhosa, construída em um espaço de probabilidade, para que possamos falar sobre sua variação. Essa é a variação na sua fórmula do ISL.T x0
fonte
Uma interpretação visual usando kfolds repetidos
Para dar uma interpretação visual / intuitiva à resposta de @Matthew Drury, considere o seguinte exemplo de brinquedo.
Veja abaixo os gráficos resultantes para um modelo polinomial de grau 2 e grau 6. À primeira vista, parece que o polinômio mais alto (em vermelho) tem maior variação.
Argumentando que o gráfico vermelho tem maior variação - experimentalmente
Seja e correspondam aos gráficos verde e vermelho respectivamente e seja uma instância dos gráficos, em verde claro e vermelho claro. Seja o número de pontos ao longo do eixo o número de gráficos (ou seja, o número de simulações). Aqui temos ef^g f^r f^(i) n x m n=400 m=200
Eu vejo três cenários principais
No caso deste exemplo de brinquedo, todos os três cenários são verdadeiros no intervalo que justifica o argumento de que o ajuste polinomial de ordem superior (em vermelho) tem uma variação maior do que o polinômio de ordem inferior (em verde).(0,1)
Uma conclusão em aberto
O que deve ser discutido quando os três cenários acima não tudo espera. Por exemplo, e se a variação das previsões em vermelho for maior em média, mas não para todos os pontos.
Detalhes dos rótulos
Considere o pontox0=0.5
fonte