Quando analiso minhas variáveis em dois modelos de regressão logística separados (univariados), obtenho o seguinte:
Predictor 1: B= 1.049, SE=.352, Exp(B)=2.85, 95% CI=(1.43, 5.69), p=.003
Constant: B=-0.434, SE=.217, Exp(B)=0.65, p=.046
Predictor 2: B= 1.379, SE=.386, Exp(B)=3.97, 95% CI=(1.86, 8.47), p<.001
Constant: B=-0.447, SE=.205, Exp(B)=0.64, p=.029
mas quando os insiro em um único modelo de regressão logística múltipla, recebo:
Predictor 1: B= 0.556, SE=.406, Exp(B)=1.74, 95% CI=(0.79, 3.86), p=.171
Predictor 2: B= 1.094, SE=.436, Exp(B)=2.99, 95% CI=(1.27, 7.02), p=.012
Constant: B=-0.574, SE=.227, Exp(B)=0.56, p=.012
Ambos os preditores são dicotômicos (categóricos). Eu verifiquei a multicolinearidade.
Não tenho certeza se forneço informações suficientes, mas não consigo entender por que o preditor 1 passou de significativo para não significativo e por que as razões de chances são tão diferentes no modelo de regressão múltipla. Alguém pode fornecer uma explicação básica do que está acontecendo?
Respostas:
Há vários motivos (nenhum dos quais está especificamente relacionado à regressão logística, mas pode ocorrer em qualquer regressão).
Correlação de regressores: seus regressores podem estar relacionados entre si, medindo efetivamente algo semelhante. Digamos, seu modelo de logit é explicar o status do mercado de trabalho (trabalhando / não trabalhando) em função da experiência e da idade. Individualmente, ambas as variáveis estão relacionadas positivamente ao status, pois os funcionários mais experientes / mais velhos (excluindo funcionários muito antigos por razões de argumento) acham mais fácil encontrar empregos do que os recém-formados. Agora, obviamente, as duas variáveis estão fortemente relacionadas, pois você precisa ser mais velho para ter mais experiência. Portanto, as duas variáveis basicamente "competem" pela explicação do status, o que pode, especialmente em amostras pequenas, resultar na perda de ambas as variáveis, pois nenhum dos efeitos pode ser forte o suficiente e suficientemente estimado com precisão quando se controla a outra. estimativas significativas. Essencialmente, você está se perguntando: qual é o efeito positivo de mais um ano de experiência ao manter a idade constante? Pode haver muito poucos ou nenhum funcionário no seu conjunto de dados para responder a essa pergunta; portanto, o efeito será estimado de maneira imprecisa, levando a grandes valores de p.
Modelos com especificação incorreta: a teoria subjacente para estatísticas t / valores-p requer que você estime um modelo especificado corretamente. Agora, se você apenas regredir em um preditor, as chances são muito altas de que esse modelo univariado sofra do viés variável omitido. Portanto, todas as apostas estão erradas quanto ao comportamento dos valores-p. Basicamente, você deve ter cuidado para confiar neles quando seu modelo não estiver correto.
fonte
Não há nenhuma razão particular para que isso não aconteça. A regressão múltipla faz uma pergunta diferente da regressão simples. Em particular, a regressão múltipla (neste caso, regressão logística múltipla) pergunta sobre a relação entre as variáveis dependentes e as variáveis independentes, controlando as outras variáveis independentes. A regressão simples pergunta sobre a relação entre uma variável dependente e uma variável independente (única).
Se você adicionar o contexto do seu estudo (por exemplo, quais são essas variáveis?), Pode ser possível fornecer respostas mais específicas. Além disso, considerando que todas as três variáveis no seu caso são dicotomias, você pode nos apresentar os dados com bastante facilidade ... existem apenas 8 linhas necessárias para resumir isso:
etc.
fonte