Decomposição de viés e variância

13

Na seção 3.2 do Reconhecimento de padrões e aprendizado de máquina de Bishop , ele discute a decomposição da variação de viés, afirmando que, para uma função de perda ao quadrado, a perda esperada pode ser decomposta em um termo de viés ao quadrado (que descreve a que distância as previsões médias estão das verdadeiras modelo), um termo de variação (que descreve a propagação das previsões em torno da média) e um termo de ruído (que fornece o ruído intrínseco dos dados).

  1. A decomposição da variação de polarização pode ser realizada com funções de perda diferentes da perda ao quadrado?
  2. Para um determinado conjunto de dados do modelo, há mais de um modelo cuja perda esperada é mínima em todos os modelos e, nesse caso, isso significa que pode haver diferentes combinações de viés e variância que produzem a mesma perda mínima esperada?
  3. Se um modelo envolve regularização, existe uma relação matemática entre viés, variância e o coeficiente de regularização λ ?
  4. Como você pode calcular o viés se não conhece o verdadeiro modelo?
  5. Existem situações em que faz mais sentido minimizar o viés ou a variação em vez da perda esperada (a soma do desvio e da variação ao quadrado)?
Vivek Subramanian
fonte

Respostas:

3

... a perda esperada [erro ao quadrado] pode ser decomposta em um termo de tendência ao quadrado (que descreve a que distância as previsões médias estão do modelo verdadeiro), um termo de variação (que descreve a propagação das previsões em torno da média) e um termo de ruído (que fornece o ruído intrínseco dos dados).

Ao observar a decomposição da perda de erro ao quadrado Eu vejo apenas dois termos: um para o viés e outro para a variação do estimador ou preditor, δ ( X 1 : n ) . Não há termo de ruído adicional na perda esperada. Como deve ser, já que a variabilidade é a variabilidade de δ ( X 1 : n ) , não da própria amostra.

Eθ[(θδ(X1:n))2]=(θEθ[δ(X1:n)])2+Eθ[(Eθ[δ(X1:n)]δ(X1:n))2]
δ(X1:n)δ(X1:n)
  1. A decomposição da variação de polarização pode ser realizada com funções de perda diferentes da perda ao quadrado?

Minha interpretação da decomposição do viés quadrado + variância [e da maneira que eu o ensino] é que esse é o equivalente estatístico do Teorema de Pitágoras, a saber, que a distância ao quadrado entre um estimador e um ponto dentro de um determinado conjunto é a soma da distância ao quadrado entre um estimador e o conjunto, mais a distância ao quadrado entre a projeção ortogonal no conjunto e o ponto dentro do conjunto. Qualquer perda com base na distância com um nPara um determinado conjunto de dados do modelo, há mais de um modelo cuja perda esperada é mínima em todos os modelos e, nesse caso, isso significa que pode haver diferentes combinações de viés e variância que produzem o valor mesma perda mínima esperada? A projeção ortogonal, ou seja, um produto interno, ou seja, essencialmente os espaços de Hilbert, satisfaz essa decomposição.

  1. Para um determinado conjunto de dados do modelo, há mais de um modelo cuja perda esperada é mínima em todos os modelos e, nesse caso, isso significa que pode haver diferentes combinações de viés e variância que produzem a mesma perda mínima esperada?

A questão não é clara: se por um número mínimo de modelos, você quer dizer , existem muitos exemplos de modelos estatísticos e decisões associadas a umaconstanteperda esperada (ou risco). ) Tomemos, por exemplo, o MLE de uma média normal.

minθEθ[(θδ(X1:n))2]
  1. Como você pode calcular o viés se não conhece o verdadeiro modelo?

Em um sentido genérico, o viés é a distância entre o modelo verdadeiro e o modelo mais próximo dentro da família de distribuições assumida. Se o modelo verdadeiro for desconhecido, o viés pode ser verificado pelo bootstrap.

  1. Existem situações em que faz mais sentido minimizar o viés ou a variação em vez da perda esperada (a soma do desvio e da variação ao quadrado)?

(θEθ[δ(X1:n)])2+α[(Eθ[δ(X1:n)]δ(X1:n))2]0<α
αα
Xi'an
fonte
O termo de ruído ao qual o OP se refere é devido ao fato de o estimador não ser para um parâmetro, mas para a função no modelo Y = f ( X ) + ϵfY=f(X)+ϵϵσϵf(X)E[f^(X)]E[(Yf(X))2|X=x]σϵ2+Bias2f^(x)+Varf^(x)
Esta é assumindo ff^ϵ
Hmm, é claro que você está correto. Mas acho que a questão é um artefato da minha derivação desleixada. Verifique p.223 of de Hastie & Tibshirani ESLII
Miguel
@Miguel: de fato assumimos ser independente de X, nãoϵf^