Viés variável omitido na regressão linear

8

Eu tenho uma pergunta filosófica a respeito do viés variável omitido.

Temos o modelo de regressão típico (modelo de população) onde as amostras são e, em seguida condições pelas quais as estimativas do OLS se comportam muito bem.( Y , X 1 , . . . , X n )

Y=β0+β1X1+...+βnXn+υ,
(Y,X1,...,Xn)

Então, sabemos que, se omitirmos uma das principais variáveis, , isso pode as estimativas de . Isso afetaria, pelo menos, o efeito estimado do restante das variáveis ​​em , e também os testes de hipótese sobre , pois os valores previstos não são confiáveis.β 0 , β 1 , . . . , Β k - 1 , β k + 1 , . . . , Β n Y p 1 , β 2 , . . .Xkβ0,β1,...,βk1,βk+1,...,βnYβ1,β2,...

O fato é que não sabemos quais variáveis ​​estão no verdadeiro modelo populacional. Em vez disso, temos vários candidatos dos quais devemos analisar e descobrir o subconjunto mais apropriado. Esse processo de seleção de variáveis ​​utiliza estimativas OLS e testes de hipótese novamente. Com base nisso, rejeitamos ou incluímos variáveis ​​diferentes. Mas como cada modelo candidato está omitindo variáveis ​​relevantes (você nunca será capaz de encontrar o modelo verdadeiro), essas decisões não se baseariam em resultados tendenciosos? Por que então devemos confiar neles?

(Estou pensando no método progressivo avançado, por exemplo, onde você escolhe uma variável e depois adiciona o restante. Você compara os modelos que fazem inferência e acho que as variáveis ​​omitidas podem estar atrapalhando tudo.)

Eu nunca fiquei muito preocupado com esse tópico até começar a pensar nele e tenho certeza de que estou errado em algum lugar.

Josu Momediano
fonte
Na parte samples from (Y,X1,....Xn) and then a bunch of conditions by which the OLS estimations behave quite well.é que realmente o que você quis dizer ou fez com que algumas de suas frases sejam cortadas. Além disso, você tem um erro de ortografia no título da pergunta.
Andy W
Sim, eu quis dizer isso. Você tem as amostras / observações, e então as condições (Gauss-Markov), que garantem os estimadores para ser os melhores imparcial etc
Josu Momediano
1
Como uma observação lateral, os métodos de seleção passo a passo (como avançar passo a passo) são muito improváveis ​​de escolher o modelo que você deveria usar. Se isso não faz sentido, você pode ler minha resposta aqui: algoritmos para seleção automática de modelo .
gung - Restabelece Monica
Mas seja qual for o método utilizado (especialização incluído), você começa a partir de 0, e você está 100% tendo o problema que eu falar sobre ... É como viés de variável omitida há cada vez
Josu Momediano
2
Você está correto em se preocupar. Muita inferência é baseada na suposição de que temos o verdadeiro modelo. Estou executando regressões há muito tempo e nunca tive o verdadeiro modelo. Para meus propósitos, raramente faz sentido pensar que existe um modelo verdadeiro. Em vez disso, pergunte-se quais são os objetivos de sua modelagem (previsão em amostra, previsão fora de amostra, estimando o efeito causal médio de x3, resumo de dados etc.) porque seus objetivos indicarão quais estratégias de modelagem são melhores.
Michael Bishop

Respostas:

8

A questão principal aqui é a natureza do viés da variável omitida . A Wikipedia afirma:

Duas condições devem ser verdadeiras para que o viés da variável omitida exista na regressão linear:

  • a variável omitida deve ser um determinante da variável dependente (ou seja, seu verdadeiro coeficiente de regressão não é zero); e
  • a variável omitida deve ser correlacionada com uma ou mais das variáveis ​​independentes incluídas (ou seja, cov (z, x) não é igual a zero).

É importante observar cuidadosamente o segundo critério. Seus betas só serão tendenciosos sob certas circunstâncias. Especificamente, se houver duas variáveis ​​que contribuem para a resposta correlacionadas entre si, mas você incluir apenas uma delas, então (em essência) os efeitos de ambas serão atribuídos à variável incluída, causando viés na estimativa de esse parâmetro. Então, talvez apenas alguns de seus betas sejam tendenciosos, não necessariamente todos.

ZZZZZZ

Agora, dado que em seu estado de equilíbrio, tudo está finalmente correlacionado com tudo no mundo, podemos achar tudo isso muito preocupante. De fato, ao fazer pesquisas observacionais, é melhor sempre assumir que toda variável é endógena .

No entanto, existem limites para isso (cf. Desigualdade de Cornfield ). Primeiro, a realização de experimentos verdadeiros interrompe a correlação entre uma variável focal (o tratamento) e quaisquer variáveis ​​explicativas relevantes, mas não observadas. Existem algumas técnicas estatísticas que podem ser usadas com dados observacionais para explicar esses conflitos não observados (prototipicamente: regressão de variáveis ​​instrumentais , mas também outras).

Deixando de lado essas possibilidades (elas provavelmente representam uma minoria de abordagens de modelagem), qual é a perspectiva de longo prazo para a ciência? Isso depende da magnitude do viés e do volume de pesquisas exploratórias realizadas. Mesmo que os números estejam um pouco errados, eles podem estar na vizinhança e suficientemente próximos para que os relacionamentos possam ser descobertos. Então, a longo prazo, os pesquisadores podem se tornar mais claros sobre quais variáveis ​​são relevantes. De fato, os modeladores algumas vezes trocam explicitamente o viés aumentado pela variação menor nas distribuições amostrais de seus parâmetros (cf, minha resposta aqui ). No curto prazo, vale sempre lembrar a famosa citação da Box:

Todos os modelos estão errados, mas alguns são úteis.

XYYXXZYY

- Reinstate Monica
fonte