O que se entende pela variação de * funções * em * Introdução à aprendizagem estatística *?

Na pág. 34 de Introdução à aprendizagem estatística : $\newcommand{\Var}{{\rm Var}}$

Embora a prova matemática esteja além do escopo deste livro, é possível mostrar que o teste esperado MSE, para um determinado valor $x_0$ , sempre pode ser decomposto na soma de três quantidades fundamentais: a variação de $\hat{f}(x_0)$ , o viés quadrado de $\hat{f}(x_0)$ e a variação dos termos de erro $\varepsilon$ . Isso é,

$E {(y_{0} - \hat{f} (x_{0}))}^{2} = V a r (\hat{f} (x_{0})) + [B i a s (\hat{f} (x_{0}))]^{2} + V a r (ε)$ $E\left(y_0 - \hat{f}(x_0)\right)^2 = \Var\big(\hat{f}(x_0)\big) + \Big[{\rm Bias}\big(\hat{f}(x_0)\big)\Big]^2 + \Var(\varepsilon)$
[...] Variação refere-se à quantidade pela qual $\hat{f}$ mudaria se a estimassemos usando um conjunto de dados de treinamento diferente.

Pergunta: Como $\Var\big(\hat{f}(x_0)\big)$ parece indicar a variação de funções , o que isso significa formalmente?

Ou seja, eu estou familiarizado com o conceito de variação de uma variável aleatória $X$ , mas e a variação de um conjunto de funções? Isso pode ser pensado apenas como a variação de outra variável aleatória cujos valores assumem a forma de funções?

machine-learning variance George
fonte

Dado que toda vez que aparece em uma fórmula, ela foi aplicada a um "determinado valor" , a variação se aplica ao número , não ao próprio . Como esse número provavelmente foi desenvolvido a partir de dados modelados com variáveis aleatórias, também é uma variável aleatória (com valor real). O conceito usual de variação se aplica.

\hat{f}

$\hat f$

x_{0}

$x_0$

\hat{f} (x_{0})

$\hat{f}(x_0)$

\hat{f}

$\hat{f}$

whuber

Eu vejo. Portanto, está mudando (variando entre diferentes conjuntos de dados de treinamento), mas ainda observamos a variação do .

\hat{f}

$\hat{f}$

\hat{f} (x_{0})

$\hat{f}(x_0)$

George

Quem é o autor deste livro? Eu queria aprender o assunto pessoalmente e agradeceria muito sua recomendação de referência.

precisa saber é o seguinte

@WilliamKrinsman Este é o livro: www-bcf.usc.edu/~gareth/ISL

Matthew Drury

Respostas:

Sua correspondência com @whuber está correta.

Um algoritmo de aprendizado pode ser visto como uma função de nível superior, mapeando conjuntos de treinamento para funções. $\mathcal{A}$

A : T \to {f ∣ f : X \to R}

$\mathcal{A} : \mathcal{T} \rightarrow \{f \mid f: X \rightarrow \mathbb{R} \}$

onde é o espaço de possíveis conjuntos de treinamento. Isso pode ser um pouco complicado, mas basicamente cada conjunto de treinamento individual resulta, após o uso do algoritmo de treinamento do modelo, em uma função específica que pode ser usada para fazer previsões com base no ponto de dados . $\mathcal{T}$ $f$ $x$

Se visualizarmos o espaço dos conjuntos de treinamento como um espaço de probabilidade, para que haja alguma distribuição de possíveis conjuntos de dados de treinamento, o algoritmo de treinamento do modelo se tornará uma variável aleatória com valor de função e podemos pensar em conceitos estatísticos. Em particular, se fixarmos um ponto de dados específico , obteremos a variável aleatória com valor numérico $x_0$

A_{x_{0}} (T) = A (T) (x_{0})

$\mathcal{A}_{x_0}(T) = \mathcal{A}(T)(x_0)$

Ou seja, primeiro treine o algoritmo em e, em seguida, avalie o modelo resultante em . Esta é apenas uma variável aleatória simples, mas engenhosa, construída em um espaço de probabilidade, para que possamos falar sobre sua variação. Essa é a variação na sua fórmula do ISL. $T$ $x_0$

Matthew Drury
fonte

Uma interpretação visual usando kfolds repetidos

Para dar uma interpretação visual / intuitiva à resposta de @Matthew Drury, considere o seguinte exemplo de brinquedo.

Os dados são gerados a partir da curva senoidal ruidosa: "True noise" $f(x) \ +$
Os dados são divididos entre amostras de treinamento e teste (75% - 25%)
Um modelo linear (polinomial) é ajustado aos dados de treinamento: $\hat f(x)$
O processo é repetido várias vezes usando os mesmos dados (ou seja, divisão do treinamento - teste aleatório usando o Sklearm kfold repetido)
Isso gera muitos modelos diferentes, a partir dos quais calculamos a média e a variação em cada ponto , bem como em todos os pontos. $x=x_i$

Veja abaixo os gráficos resultantes para um modelo polinomial de grau 2 e grau 6. À primeira vista, parece que o polinômio mais alto (em vermelho) tem maior variação.

Argumentando que o gráfico vermelho tem maior variação - experimentalmente

Seja e correspondam aos gráficos verde e vermelho respectivamente e seja uma instância dos gráficos, em verde claro e vermelho claro. Seja o número de pontos ao longo do eixo o número de gráficos (ou seja, o número de simulações). Aqui temos e $\hat f_g$ $\hat f_r$ $\hat f^{(i)}$ $n$ $x$ $m$ $n = 400$ $m = 200$

Eu vejo três cenários principais

A variação dos valores previstos em um ponto específico é maior, isto é, $x = x_0$ $Var \ \left[ \{\hat f^{(1)}_r(x_0), ..., \hat f^{(m)}_r(x_0)\} \right] > Var \ \left[ \{\hat f^{(1)}_g(x_0),...,\hat f^{(i)}_g(x_0)\} \right]$
A variação em é maior para todos os pontos no intervalo $(1)$ $\{ x_1,...,x_{400} \}$ $(0,1)$
A variação é maior em média (ou seja, pode ser menor para alguns pontos)

No caso deste exemplo de brinquedo, todos os três cenários são verdadeiros no intervalo que justifica o argumento de que o ajuste polinomial de ordem superior (em vermelho) tem uma variação maior do que o polinômio de ordem inferior (em verde). $(0,1)$

Uma conclusão em aberto

O que deve ser discutido quando os três cenários acima não tudo espera. Por exemplo, e se a variação das previsões em vermelho for maior em média, mas não para todos os pontos.

Detalhes dos rótulos

Considere o ponto $x_0 = 0.5$

A barra de erro é o intervalo entre o mínimo e o máximo de $\hat f(x_0)$
A variação é calculada em $x_0$
verdadeiro é a linha azul pontilhada $f(x)$

Xavier Bourret Sicotte
fonte

Eu gosto dessa idéia de ilustrar um conceito usando imagens. Eu me pergunto sobre dois aspectos de sua postagem e espero que você possa resolvê-los. Primeiro, você poderia explicar mais explicitamente como esses gráficos mostram a "variação de uma função"? Segundo, não está absolutamente claro que o gráfico vermelho exibe "maior variação" ou mesmo que os dois gráficos são passíveis de uma comparação tão simplista. Considere o spread vertical dos valores de vermelho acima de por exemplo, e compare-o com o spread dos valores de verde no mesmo ponto: os vermelhos parecem um pouco menos espalhados que os verdes.

x = 0.95,

$x=0.95,$

whuber

Meu argumento não é se é possível ler suas plotagens com alta precisão: é que o significado de comparar duas plotagens como se uma pudesse ser considerada de variação "maior" ou "menor" que a outra é questionável, dada a possibilidade de que, para alguns intervalos de as variações das previsões serão maiores em um gráfico e para outros intervalos de as variações serão menores.

x

$x$

x

$x$

whuber

Sim, eu concordo - Eu editei o post para refletir seus comentários

Xavier Bourret Sicotte