Entendo o conceito de compensação de desvio e desvio. O viés baseado no meu entendimento representa o erro devido ao uso de um classificador simples (por exemplo: linear) para capturar um limite de decisão não linear complexo. Então, eu esperava que o estimador OLS tivesse alto viés e baixa variação.
Mas me deparei com o Teorema de Gauss Markov, que diz que o viés de OLS = 0 é surpreendente para mim. Explique como o viés é zero para o OLS porque eu esperava que o viés fosse alto. Por que minha compreensão do viés está errada?
regression
machine-learning
least-squares
unbiased-estimator
blue
GeorgeOfTheRF
fonte
fonte
Respostas:
Podemos pensar em qualquer tarefa de aprendizado supervisionado, seja de regressão ou classificação, como uma tentativa de aprender um sinal subjacente a partir de dados ruidosos. Considere o seguinte exemplo simples:
Nosso objetivo é estimar o sinal verdadeiro base em um conjunto de pares observados onde e são ruídos aleatórios com média 0. Para isso final, ajustamos um modelo usando nosso algoritmo de aprendizado de máquina favorito.f(x) {xi,yi} yi=f(xi)+ϵi ϵi f^(x)
Quando dizemos que o estimador OLS é imparcial, o que realmente queremos dizer é que, se a forma verdadeira do modelo é , então o OLS estima e tem as propriedades encantadoras de e .f(x)=β0+β1x β^0 β^1 E(β^0)=β0 E(β^1)=β1
Isso é verdade para o nosso exemplo simples, mas é uma suposição muito forte! Em geral, e na medida em que nenhum modelo esteja realmente correto, não podemos fazer tais suposições sobre . Portanto, um modelo com a forma será tendencioso.f(x) f^(x)=β^0+β^1x
E se nossos dados forem assim? ( alerta de spoiler: )f(x)=sin(x)
Agora, se ajustarmos o modelo ingênuo , é extremamente inadequado estimar (alto viés). Mas, por outro lado, é relativamente insensível ao ruído (baixa variação).f^(x)=β^0+β^1x f(x)
Se adicionarmos mais termos ao modelo, diga , podemos capturar mais do sinal "desconhecido" em virtude da complexidade adicional na estrutura do nosso modelo. Baixamos o viés nos dados observados, mas a complexidade adicionada necessariamente aumenta a variação. (Observe que, se é verdadeiramente periódico, a expansão polinomial é uma má escolha!)f^(x)=β^0+β^1x+β^2x2+...β^pxp f(x)
Mas, novamente, a menos que saibamos que o verdadeiro , nosso modelo nunca será imparcial , mesmo se usarmos o OLS para ajustar os parâmetros.f(x)=β0+β1sin(x)
fonte