Eu tenho uma pergunta sobre o viés variável omitido na regressão logística e linear.
Digamos que eu omita algumas variáveis de um modelo de regressão linear. Finja que essas variáveis omitidas não estão correlacionadas com as variáveis que incluí no meu modelo. Essas variáveis omitidas não influenciam os coeficientes no meu modelo.
Mas na regressão logística, acabei de aprender que isso não é verdade. As variáveis omitidas influenciarão os coeficientes nas variáveis incluídas, mesmo que as variáveis omitidas não estejam correlacionadas com as variáveis incluídas. Encontrei um artigo sobre esse assunto, mas não consigo entender.
Aqui está o papel e alguns slides do powerpoint.
O viés, aparentemente, é sempre em direção a zero. Alguém pode explicar como isso funciona?
fonte
Respostas:
O caso do "viés de atenuação" pode ser apresentado com mais clareza se examinarmos o modelo "probit" - mas o resultado também é transferido para a regressão logística.
Sob os modelos de probabilidade condicional (modelos de logística (logit), "probit" e "probabilidade linear"), podemos postular um modelo de regressão linear latente (não observável):
onde é uma variável inobservável contínua (e X é a matriz regressora). O termo de erro é considerado independente dos regressores e segue uma distribuição que tem uma densidade simétrica em torno de zero e, no nosso caso, a distribuição normal padrão F U ( u ) = Φ ( u ) .y∗ X FU(u)=Φ(u)
Assumimos que o que observamos, ou seja, a variável binária , é uma função Indicadora do inobservável y ∗ :y y∗
Então perguntamos "qual é a probabilidade de assumir o valor 1 dado os regressores?" (ou seja, estamos olhando para uma probabilidade condicional). Isto éy 1
a última igualdade devido à propriedade "reflexiva" da função de distribuição cumulativa padrão, que vem da simetria da função de densidade em torno de zero. Observe que, embora tenhamos assumido que é independente de X , é necessário condicionar X para tratar a quantidade X β como não aleatória.u X X Xβ
Se assumirmos que , obtemos o modelo teóricoXβ=b0+b1X1+b2X2
Vamos agora seja independente de X 1 e erroneamente excluídos a partir da especificação da regressão subjacente. Então especificamosX2 X1
Suponha ainda que X 2 também seja uma variável aleatória normal X 2 ∼ N ( μ 2 , σ 2 2 ) . Mas isso significa que
devido ao fechamento sob adição da distribuição normal (e ao pressuposto de independência). Aplicando a mesma lógica de antes, aqui temos
que é o resultado de "desvio para zero".
fonte