Eu tenho uma pergunta filosófica a respeito do viés variável omitido.
Temos o modelo de regressão típico (modelo de população) onde as amostras são e, em seguida condições pelas quais as estimativas do OLS se comportam muito bem.( Y , X 1 , . . . , X n )
Então, sabemos que, se omitirmos uma das principais variáveis, , isso pode as estimativas de . Isso afetaria, pelo menos, o efeito estimado do restante das variáveis em , e também os testes de hipótese sobre , pois os valores previstos não são confiáveis.β 0 , β 1 , . . . , Β k - 1 , β k + 1 , . . . , Β n Y p 1 , β 2 , . . .
O fato é que não sabemos quais variáveis estão no verdadeiro modelo populacional. Em vez disso, temos vários candidatos dos quais devemos analisar e descobrir o subconjunto mais apropriado. Esse processo de seleção de variáveis utiliza estimativas OLS e testes de hipótese novamente. Com base nisso, rejeitamos ou incluímos variáveis diferentes. Mas como cada modelo candidato está omitindo variáveis relevantes (você nunca será capaz de encontrar o modelo verdadeiro), essas decisões não se baseariam em resultados tendenciosos? Por que então devemos confiar neles?
(Estou pensando no método progressivo avançado, por exemplo, onde você escolhe uma variável e depois adiciona o restante. Você compara os modelos que fazem inferência e acho que as variáveis omitidas podem estar atrapalhando tudo.)
Eu nunca fiquei muito preocupado com esse tópico até começar a pensar nele e tenho certeza de que estou errado em algum lugar.
fonte
samples from (Y,X1,....Xn) and then a bunch of conditions by which the OLS estimations behave quite well.
é que realmente o que você quis dizer ou fez com que algumas de suas frases sejam cortadas. Além disso, você tem um erro de ortografia no título da pergunta.Respostas:
A questão principal aqui é a natureza do viés da variável omitida . A Wikipedia afirma:
É importante observar cuidadosamente o segundo critério. Seus betas só serão tendenciosos sob certas circunstâncias. Especificamente, se houver duas variáveis que contribuem para a resposta correlacionadas entre si, mas você incluir apenas uma delas, então (em essência) os efeitos de ambas serão atribuídos à variável incluída, causando viés na estimativa de esse parâmetro. Então, talvez apenas alguns de seus betas sejam tendenciosos, não necessariamente todos.
Agora, dado que em seu estado de equilíbrio, tudo está finalmente correlacionado com tudo no mundo, podemos achar tudo isso muito preocupante. De fato, ao fazer pesquisas observacionais, é melhor sempre assumir que toda variável é endógena .
No entanto, existem limites para isso (cf. Desigualdade de Cornfield ). Primeiro, a realização de experimentos verdadeiros interrompe a correlação entre uma variável focal (o tratamento) e quaisquer variáveis explicativas relevantes, mas não observadas. Existem algumas técnicas estatísticas que podem ser usadas com dados observacionais para explicar esses conflitos não observados (prototipicamente: regressão de variáveis instrumentais , mas também outras).
Deixando de lado essas possibilidades (elas provavelmente representam uma minoria de abordagens de modelagem), qual é a perspectiva de longo prazo para a ciência? Isso depende da magnitude do viés e do volume de pesquisas exploratórias realizadas. Mesmo que os números estejam um pouco errados, eles podem estar na vizinhança e suficientemente próximos para que os relacionamentos possam ser descobertos. Então, a longo prazo, os pesquisadores podem se tornar mais claros sobre quais variáveis são relevantes. De fato, os modeladores algumas vezes trocam explicitamente o viés aumentado pela variação menor nas distribuições amostrais de seus parâmetros (cf, minha resposta aqui ). No curto prazo, vale sempre lembrar a famosa citação da Box:
fonte