Polarização variável omitida na regressão logística vs. polarização variável omitida na regressão de mínimos quadrados ordinários

17

Eu tenho uma pergunta sobre o viés variável omitido na regressão logística e linear.

Digamos que eu omita algumas variáveis ​​de um modelo de regressão linear. Finja que essas variáveis ​​omitidas não estão correlacionadas com as variáveis ​​que incluí no meu modelo. Essas variáveis ​​omitidas não influenciam os coeficientes no meu modelo.

Mas na regressão logística, acabei de aprender que isso não é verdade. As variáveis ​​omitidas influenciarão os coeficientes nas variáveis ​​incluídas, mesmo que as variáveis ​​omitidas não estejam correlacionadas com as variáveis ​​incluídas. Encontrei um artigo sobre esse assunto, mas não consigo entender.

Aqui está o papel e alguns slides do powerpoint.

O viés, aparentemente, é sempre em direção a zero. Alguém pode explicar como isso funciona?

ConfusedEconometricsUndergrad
fonte
Você conhece como o modelo de regressão logística emerge de um modelo de regressão linear subjacente de "variável latente"?
Alecos Papadopoulos
@AlecosPapadopoulos Eu, pelo menos não sou. Qual é o prato?
Alexis #
Existem outros artigos que discutem isso, mas o que você vinculou é o mais fácil que eu conheço. Então, acho que não posso melhorar.
Maarten Buis
Prezado Sr. Papadopoulos: Eu li a ideia da variável latente. Por que você pergunta?
precisa
@ Alexis Veja, por exemplo, este post, stats.stackexchange.com/questions/80611/… , e o artigo da wikipedia, en.wikipedia.org/wiki/… . Essa abordagem também esclarece que é a suposição que fazemos sobre o termo de erro do modelo subjacente que determina qual modelo obteremos no nível de Probabilidades. Por outro exemplo, se assumirmos que o erro subjacente segue um uniforme, obtemos o Modelo de Probabilidade Linear, consulte stats.stackexchange.com/questions/81789
Alecos Papadopoulos

Respostas:

20

O caso do "viés de atenuação" pode ser apresentado com mais clareza se examinarmos o modelo "probit" - mas o resultado também é transferido para a regressão logística.

Sob os modelos de probabilidade condicional (modelos de logística (logit), "probit" e "probabilidade linear"), podemos postular um modelo de regressão linear latente (não observável):

y=Xβ+u

onde é uma variável inobservável contínua (e X é a matriz regressora). O termo de erro é considerado independente dos regressores e segue uma distribuição que tem uma densidade simétrica em torno de zero e, no nosso caso, a distribuição normal padrão F U ( u ) = Φ ( u ) .yXFU(u)=Φ(u)

Assumimos que o que observamos, ou seja, a variável binária , é uma função Indicadora do inobservável y :yy

y=1ify>0,y=0ify0

Então perguntamos "qual é a probabilidade de assumir o valor 1 dado os regressores?" (ou seja, estamos olhando para uma probabilidade condicional). Isto éy1

P(y=1X)=P(y>0X)=P(Xβ+u>0X)=P(u>XβX)=1Φ(Χβ)=Φ(Xβ)

a última igualdade devido à propriedade "reflexiva" da função de distribuição cumulativa padrão, que vem da simetria da função de densidade em torno de zero. Observe que, embora tenhamos assumido que é independente de X , é necessário condicionar X para tratar a quantidade X β como não aleatória.uXXXβ

Se assumirmos que , obtemos o modelo teóricoXβ=b0+b1X1+b2X2

(1)P(y=1X)=Φ(b0+b1X1+b2X2)

Vamos agora seja independente de X 1 e erroneamente excluídos a partir da especificação da regressão subjacente. Então especificamosX2X1

Suponha ainda que X 2 também seja uma variável aleatória normal X 2N ( μ 2 , σ 2 2 ) . Mas isso significa que

y=b0+b1X1+ϵ
X2X2N(μ2,σ22)

ϵ=u+b2X2N(b2μ2,1+b22σ22)

devido ao fechamento sob adição da distribuição normal (e ao pressuposto de independência). Aplicando a mesma lógica de antes, aqui temos

P(y=1X1)=P(y>0X1)=P(b0+b1X1+ϵ>0X1)=P(ϵ>b0b1X1X1)

ϵ

P(y=1X1)=1P(ϵb2μ21+b22σ22(b0+b2μ2)1+b22σ22b11+b22σ22X1X1)

(2)P(y=1X1)=Φ((b0+b2μ2)1+b22σ22+b11+b22σ22X1)

(1)(2)

b1

b^1pb11+b22σ22|b^1|<|b1|

que é o resultado de "desvio para zero".

ϵ

Alecos Papadopoulos
fonte