Por que o viés é igual a zero para o estimador OLS em relação à regressão linear?

7

Entendo o conceito de compensação de desvio e desvio. O viés baseado no meu entendimento representa o erro devido ao uso de um classificador simples (por exemplo: linear) para capturar um limite de decisão não linear complexo. Então, eu esperava que o estimador OLS tivesse alto viés e baixa variação.

Mas me deparei com o Teorema de Gauss Markov, que diz que o viés de OLS = 0 é surpreendente para mim. Explique como o viés é zero para o OLS porque eu esperava que o viés fosse alto. Por que minha compreensão do viés está errada?

GeorgeOfTheRF
fonte
3
A prova de que o viés de ols (para modelos lineares) é zero, pressupõe que o modelo é VERDADEIRO, ou seja, que todas as variáveis ​​relevantes estão incluídas no modelo, que seu efeito é exatamente linear e assim por diante .... Se isso não for verdade, o resultado não será seguido.
Kjetil b halvorsen
O Teorema de Gauss-Markov está nos dizendo que, em um modelo de regressão, em que o valor esperado de nossos termos de erro é zero, E (\ epsilon_ {i}) = 0 e a variação dos termos de erro é constante e finita \ sigma ^ {2 } (\ epsilon_ {i}) = \ sigma ^ {2} \ textless \ infty e \ epsilon_ {i} e \ epsilon_ {j} não são correlacionados para todos os estimadores de mínimos quadrados b, {i} e b_ {1 } são imparciais e têm variação mínima entre todos os estimadores lineares imparciais.
GeorgeOfTheRF
4
Eu não disse que o modelo deveria se encaixar perfeitamente, eu disse que todas as variáveis ​​relevantes deveriam ser incluídas. Essas são duas condições diferentes!
Kjetil b halvorsen
5
A suposição média zero sobre os erros equivale a exigir o que @kjetilbhalvorsen menciona: não há efeitos sistemáticos no termo do erro.
Christoph Hanck

Respostas:

8

Podemos pensar em qualquer tarefa de aprendizado supervisionado, seja de regressão ou classificação, como uma tentativa de aprender um sinal subjacente a partir de dados ruidosos. Considere o seguinte exemplo simples:

insira a descrição da imagem aqui

Nosso objetivo é estimar o sinal verdadeiro base em um conjunto de pares observados onde e são ruídos aleatórios com média 0. Para isso final, ajustamos um modelo usando nosso algoritmo de aprendizado de máquina favorito.f(x){xi,yi}yi=f(xi)+ϵiϵif^(x)

Quando dizemos que o estimador OLS é imparcial, o que realmente queremos dizer é que, se a forma verdadeira do modelo é , então o OLS estima e tem as propriedades encantadoras de e .f(x)=β0+β1xβ^0β^1E(β^0)=β0E(β^1)=β1

insira a descrição da imagem aqui

Isso é verdade para o nosso exemplo simples, mas é uma suposição muito forte! Em geral, e na medida em que nenhum modelo esteja realmente correto, não podemos fazer tais suposições sobre . Portanto, um modelo com a forma será tendencioso.f(x)f^(x)=β^0+β^1x

E se nossos dados forem assim? ( alerta de spoiler: )f(x)=sin(x)

insira a descrição da imagem aqui

Agora, se ajustarmos o modelo ingênuo , é extremamente inadequado estimar (alto viés). Mas, por outro lado, é relativamente insensível ao ruído (baixa variação).f^(x)=β^0+β^1xf(x)

insira a descrição da imagem aqui

Se adicionarmos mais termos ao modelo, diga , podemos capturar mais do sinal "desconhecido" em virtude da complexidade adicional na estrutura do nosso modelo. Baixamos o viés nos dados observados, mas a complexidade adicionada necessariamente aumenta a variação. (Observe que, se é verdadeiramente periódico, a expansão polinomial é uma má escolha!)f^(x)=β^0+β^1x+β^2x2+...β^pxpf(x)

insira a descrição da imagem aqui

Mas, novamente, a menos que saibamos que o verdadeiro , nosso modelo nunca será imparcial , mesmo se usarmos o OLS para ajustar os parâmetros.f(x)=β0+β1sin(x)

Andy Kreek
fonte