Preditores significativos tornam-se não significativos na regressão logística múltipla

11

Quando analiso minhas variáveis ​​em dois modelos de regressão logística separados (univariados), obtenho o seguinte:

Predictor 1:    B= 1.049,    SE=.352,    Exp(B)=2.85,    95% CI=(1.43, 5.69),    p=.003
   Constant:    B=-0.434,    SE=.217,    Exp(B)=0.65,                            p=.046

Predictor 2:    B= 1.379,    SE=.386,    Exp(B)=3.97,    95% CI=(1.86, 8.47),    p<.001
   Constant:    B=-0.447,    SE=.205,    Exp(B)=0.64,                            p=.029

mas quando os insiro em um único modelo de regressão logística múltipla, recebo:

Predictor 1:    B= 0.556,    SE=.406,    Exp(B)=1.74,    95% CI=(0.79, 3.86),    p=.171
Predictor 2:    B= 1.094,    SE=.436,    Exp(B)=2.99,    95% CI=(1.27, 7.02),    p=.012
   Constant:    B=-0.574,    SE=.227,    Exp(B)=0.56,                            p=.012

Ambos os preditores são dicotômicos (categóricos). Eu verifiquei a multicolinearidade.

Não tenho certeza se forneço informações suficientes, mas não consigo entender por que o preditor 1 passou de significativo para não significativo e por que as razões de chances são tão diferentes no modelo de regressão múltipla. Alguém pode fornecer uma explicação básica do que está acontecendo?

Annie
fonte
2
multivariada geralmente indica várias variáveis ​​dependentes - você quis dizer múltiplos preditores, certo? Isso geralmente seria chamado de regressão múltipla.
Macro
1
β
ah ok obrigado Eu verifiquei o diagnóstico de colinearidade através de regressão linear no spss e verifiquei a tolerância e o VIF - isso está correto?
Annie
Bom comentário @Macro. Lembro-me vagamente de ler sobre maneiras de corrigir esse problema na balança, mas não me lembro onde.
Peter Flom - Restabelece Monica
1
π2/3

Respostas:

20

Há vários motivos (nenhum dos quais está especificamente relacionado à regressão logística, mas pode ocorrer em qualquer regressão).

  1. Perda de graus de liberdade: ao tentar estimar mais parâmetros de um determinado conjunto de dados, você efetivamente solicita mais, o que custa precisão e, portanto, leva a estatísticas t mais baixas e, portanto, valores p mais altos.
  2. Correlação de regressores: seus regressores podem estar relacionados entre si, medindo efetivamente algo semelhante. Digamos, seu modelo de logit é explicar o status do mercado de trabalho (trabalhando / não trabalhando) em função da experiência e da idade. Individualmente, ambas as variáveis ​​estão relacionadas positivamente ao status, pois os funcionários mais experientes / mais velhos (excluindo funcionários muito antigos por razões de argumento) acham mais fácil encontrar empregos do que os recém-formados. Agora, obviamente, as duas variáveis ​​estão fortemente relacionadas, pois você precisa ser mais velho para ter mais experiência. Portanto, as duas variáveis ​​basicamente "competem" pela explicação do status, o que pode, especialmente em amostras pequenas, resultar na perda de ambas as variáveis, pois nenhum dos efeitos pode ser forte o suficiente e suficientemente estimado com precisão quando se controla a outra. estimativas significativas. Essencialmente, você está se perguntando: qual é o efeito positivo de mais um ano de experiência ao manter a idade constante? Pode haver muito poucos ou nenhum funcionário no seu conjunto de dados para responder a essa pergunta; portanto, o efeito será estimado de maneira imprecisa, levando a grandes valores de p.

  3. Modelos com especificação incorreta: a teoria subjacente para estatísticas t / valores-p requer que você estime um modelo especificado corretamente. Agora, se você apenas regredir em um preditor, as chances são muito altas de que esse modelo univariado sofra do viés variável omitido. Portanto, todas as apostas estão erradas quanto ao comportamento dos valores-p. Basicamente, você deve ter cuidado para confiar neles quando seu modelo não estiver correto.

Christoph Hanck
fonte
Obrigado pela sua resposta rápida e completa. Tentarei eliminar primeiro qualquer multicolinearidade. Corri correlações entre variáveis ​​e encontrei algumas e tentarei executar fatores de inflação de variação, porque ouvi dizer que é uma boa maneira de verificar isso também. Se acaba sendo apenas uma questão de graus de liberdade, há algo que eu possa fazer sobre isso? Eu posso explicar que isso está acontecendo, mas parece comprometer a integridade da regressão se o significado cair tão severamente.
Sam O'Brien
3
@ SamO'Brien: Observe que se seu objetivo é realmente o que você disse, "tentar determinar" quais variáveis ​​independentes potencialmente causam uma resposta "-, ignorando algumas apenas porque estão correlacionadas com outras para" eliminar qualquer multicolinearidade " não vai ajudar a alcançá-lo.
Scortchi - Restabelece Monica
1
É possível ter o contrário, ou seja, o mesmo preditor não significativo na regressão simples, mas significativo na regressão múltipla?
gkcn
8

Não há nenhuma razão particular para que isso não aconteça. A regressão múltipla faz uma pergunta diferente da regressão simples. Em particular, a regressão múltipla (neste caso, regressão logística múltipla) pergunta sobre a relação entre as variáveis ​​dependentes e as variáveis ​​independentes, controlando as outras variáveis ​​independentes. A regressão simples pergunta sobre a relação entre uma variável dependente e uma variável independente (única).

Se você adicionar o contexto do seu estudo (por exemplo, quais são essas variáveis?), Pode ser possível fornecer respostas mais específicas. Além disso, considerando que todas as três variáveis ​​no seu caso são dicotomias, você pode nos apresentar os dados com bastante facilidade ... existem apenas 8 linhas necessárias para resumir isso:

DVIV1IV2CountAAA10AAB20

etc.

Peter Flom - Restabelece Monica
fonte