... a perda esperada [erro ao quadrado] pode ser decomposta em um termo de tendência ao quadrado (que descreve a que distância as previsões médias estão do modelo verdadeiro), um termo de variação (que descreve a propagação das previsões em torno da média) e um termo de ruído (que fornece o ruído intrínseco dos dados).
Ao observar a decomposição da perda de erro ao quadrado
Eu vejo apenas dois termos: um para o viés e outro para a variação do estimador ou preditor, δ ( X 1 : n ) . Não há termo de ruído adicional na perda esperada. Como deve ser, já que a variabilidade é a variabilidade de δ ( X 1 : n ) , não da própria amostra.
Eθ[(θ−δ(X1:n))2]=(θ−Eθ[δ(X1:n)])2+Eθ[(Eθ[δ(X1:n)]−δ(X1:n))2]
δ(X1:n)δ(X1:n)
- A decomposição da variação de polarização pode ser realizada com funções de perda diferentes da perda ao quadrado?
Minha interpretação da decomposição do viés quadrado + variância [e da maneira que eu o ensino] é que esse é o equivalente estatístico do Teorema de Pitágoras, a saber, que a distância ao quadrado entre um estimador e um ponto dentro de um determinado conjunto é a soma da distância ao quadrado entre um estimador e o conjunto, mais a distância ao quadrado entre a projeção ortogonal no conjunto e o ponto dentro do conjunto. Qualquer perda com base na distância com um nPara um determinado conjunto de dados do modelo, há mais de um modelo cuja perda esperada é mínima em todos os modelos e, nesse caso, isso significa que pode haver diferentes combinações de viés e variância que produzem o valor mesma perda mínima esperada? A projeção ortogonal, ou seja, um produto interno, ou seja, essencialmente os espaços de Hilbert, satisfaz essa decomposição.
- Para um determinado conjunto de dados do modelo, há mais de um modelo cuja perda esperada é mínima em todos os modelos e, nesse caso, isso significa que pode haver diferentes combinações de viés e variância que produzem a mesma perda mínima esperada?
A questão não é clara: se por um número mínimo de modelos, você quer dizer
, existem muitos exemplos de modelos estatísticos e decisões associadas a umaconstanteperda esperada (ou risco). ) Tomemos, por exemplo, o MLE de uma média normal.
minθEθ[(θ−δ(X1:n))2]
- Como você pode calcular o viés se não conhece o verdadeiro modelo?
Em um sentido genérico, o viés é a distância entre o modelo verdadeiro e o modelo mais próximo dentro da família de distribuições assumida. Se o modelo verdadeiro for desconhecido, o viés pode ser verificado pelo bootstrap.
- Existem situações em que faz mais sentido minimizar o viés ou a variação em vez da perda esperada (a soma do desvio e da variação ao quadrado)?
(θ−Eθ[δ(X1:n)])2+α[(Eθ[δ(X1:n)]−δ(X1:n))2]0<α
αα