O que se entende pela variação de * funções * em * Introdução à aprendizagem estatística *?

11

Na pág. 34 de Introdução à aprendizagem estatística :

Embora a prova matemática esteja além do escopo deste livro, é possível mostrar que o teste esperado MSE, para um determinado valor x0 , sempre pode ser decomposto na soma de três quantidades fundamentais: a variação de f^(x0) , o viés quadrado de f^(x0) e a variação dos termos de erro ε . Isso é,

E(y0f^(x0))2=Var(f^(x0))+[Bias(f^(x0))]2+Var(ε)

[...] Variação refere-se à quantidade pela qual f^ mudaria se a estimassemos usando um conjunto de dados de treinamento diferente.

Pergunta: Como Var(f^(x0)) parece indicar a variação de funções , o que isso significa formalmente?

Ou seja, eu estou familiarizado com o conceito de variação de uma variável aleatória X , mas e a variação de um conjunto de funções? Isso pode ser pensado apenas como a variação de outra variável aleatória cujos valores assumem a forma de funções?

George
fonte
6
Dado que toda vez que aparece em uma fórmula, ela foi aplicada a um "determinado valor" , a variação se aplica ao número , não ao próprio . Como esse número provavelmente foi desenvolvido a partir de dados modelados com variáveis ​​aleatórias, também é uma variável aleatória (com valor real). O conceito usual de variação se aplica. f^x0 f^(x0)f^
whuber
2
Eu vejo. Portanto, está mudando (variando entre diferentes conjuntos de dados de treinamento), mas ainda observamos a variação do . f^f^(x0)
George
Quem é o autor deste livro? Eu queria aprender o assunto pessoalmente e agradeceria muito sua recomendação de referência.
precisa saber é o seguinte
3
@WilliamKrinsman Este é o livro: www-bcf.usc.edu/~gareth/ISL
Matthew Drury

Respostas:

13

Sua correspondência com @whuber está correta.

Um algoritmo de aprendizado pode ser visto como uma função de nível superior, mapeando conjuntos de treinamento para funções.A

A:T{ff:XR}

onde é o espaço de possíveis conjuntos de treinamento. Isso pode ser um pouco complicado, mas basicamente cada conjunto de treinamento individual resulta, após o uso do algoritmo de treinamento do modelo, em uma função específica que pode ser usada para fazer previsões com base no ponto de dados .Tfx

Se visualizarmos o espaço dos conjuntos de treinamento como um espaço de probabilidade, para que haja alguma distribuição de possíveis conjuntos de dados de treinamento, o algoritmo de treinamento do modelo se tornará uma variável aleatória com valor de função e podemos pensar em conceitos estatísticos. Em particular, se fixarmos um ponto de dados específico , obteremos a variável aleatória com valor numéricox0

Ax0(T)=A(T)(x0)

Ou seja, primeiro treine o algoritmo em e, em seguida, avalie o modelo resultante em . Esta é apenas uma variável aleatória simples, mas engenhosa, construída em um espaço de probabilidade, para que possamos falar sobre sua variação. Essa é a variação na sua fórmula do ISL.Tx0

Matthew Drury
fonte
5

Uma interpretação visual usando kfolds repetidos

Para dar uma interpretação visual / intuitiva à resposta de @Matthew Drury, considere o seguinte exemplo de brinquedo.

  • Os dados são gerados a partir da curva senoidal ruidosa: "True noise"f(x) +
  • Os dados são divididos entre amostras de treinamento e teste (75% - 25%)
  • Um modelo linear (polinomial) é ajustado aos dados de treinamento:f^(x)
  • O processo é repetido várias vezes usando os mesmos dados (ou seja, divisão do treinamento - teste aleatório usando o Sklearm kfold repetido)
  • Isso gera muitos modelos diferentes, a partir dos quais calculamos a média e a variação em cada ponto , bem como em todos os pontos.x=xi

Veja abaixo os gráficos resultantes para um modelo polinomial de grau 2 e grau 6. À primeira vista, parece que o polinômio mais alto (em vermelho) tem maior variação.

insira a descrição da imagem aqui

Argumentando que o gráfico vermelho tem maior variação - experimentalmente

Seja e correspondam aos gráficos verde e vermelho respectivamente e seja uma instância dos gráficos, em verde claro e vermelho claro. Seja o número de pontos ao longo do eixo o número de gráficos (ou seja, o número de simulações). Aqui temos ef^gf^rf^(i)nxmn=400m=200

Eu vejo três cenários principais

  1. A variação dos valores previstos em um ponto específico é maior, isto é,x=x0Var [{f^r(1)(x0),...,f^r(m)(x0)}]>Var [{f^g(1)(x0),...,f^g(i)(x0)}]
  2. A variação em é maior para todos os pontos no intervalo (1) {x1,...,x400}(0,1)
  3. A variação é maior em média (ou seja, pode ser menor para alguns pontos)

No caso deste exemplo de brinquedo, todos os três cenários são verdadeiros no intervalo que justifica o argumento de que o ajuste polinomial de ordem superior (em vermelho) tem uma variação maior do que o polinômio de ordem inferior (em verde).(0,1)

Uma conclusão em aberto

O que deve ser discutido quando os três cenários acima não tudo espera. Por exemplo, e se a variação das previsões em vermelho for maior em média, mas não para todos os pontos.

Detalhes dos rótulos

Considere o pontox0=0.5

  • A barra de erro é o intervalo entre o mínimo e o máximo def^(x0)
  • A variação é calculada emx0
  • verdadeiro é a linha azul pontilhadaf(x)
Xavier Bourret Sicotte
fonte
Eu gosto dessa idéia de ilustrar um conceito usando imagens. Eu me pergunto sobre dois aspectos de sua postagem e espero que você possa resolvê-los. Primeiro, você poderia explicar mais explicitamente como esses gráficos mostram a "variação de uma função"? Segundo, não está absolutamente claro que o gráfico vermelho exibe "maior variação" ou mesmo que os dois gráficos são passíveis de uma comparação tão simplista. Considere o spread vertical dos valores de vermelho acima de por exemplo, e compare-o com o spread dos valores de verde no mesmo ponto: os vermelhos parecem um pouco menos espalhados que os verdes. x=0.95,
whuber
Meu argumento não é se é possível ler suas plotagens com alta precisão: é que o significado de comparar duas plotagens como se uma pudesse ser considerada de variação "maior" ou "menor" que a outra é questionável, dada a possibilidade de que, para alguns intervalos de as variações das previsões serão maiores em um gráfico e para outros intervalos de as variações serão menores. xx
whuber
Sim, eu concordo - Eu editei o post para refletir seus comentários
Xavier Bourret Sicotte