Coeficiente de regressão logística exponenciada diferente de odds ratio

10

Pelo que entendi, o valor beta exponenciado de uma regressão logística é a razão de chances dessa variável para a variável dependente de interesse. No entanto, o valor não corresponde ao odds ratio calculado manualmente. Meu modelo está prevendo nanismo (uma medida de desnutrição) usando, entre outros indicadores, seguros.

// Odds ratio from LR, being done in stata
logit stunting insurance age ... etc. 
or_insurance = exp(beta_value_insurance)

// Odds ratio, manually calculated
odds_stunted_insured = num_stunted_ins/num_not_stunted_ins
odds_stunted_unins = num_stunted_unins/num_not_stunted_unins
odds_ratio = odds_stunted_ins/odds_stunted_unins

Qual é a razão conceitual para esses valores serem diferentes? Controlando por outros fatores na regressão? Só quero poder explicar a discrepância.

Mike
fonte
2
Você está colocando preditores adicionais no modelo de regressão logística? O odds ratio calculado manualmente corresponderá apenas ao odds ratio obtido da regressão logística se você não incluir outros preditores.
Macro
Era o que eu imaginava, mas queria confirmação. Isso ocorre porque o resultado da regressão é responsável pela variação de outros preditores?
Mike
Sim, Mike. Supondo que o modelo esteja especificado corretamente, você pode interpretá-lo como o odds ratio quando os outros preditores estiverem todos fixos.
Macro
@ Macro: você se importaria de atualizar seu comentário como resposta?
jrennie

Respostas:

22

Se você estiver apenas colocando esse preditor isolado no modelo, a razão de chances entre o preditor e a resposta será exatamente igual ao coeficiente de regressão exponenciada . Não acho que haja uma derivação desse resultado no presente, por isso aproveitarei a oportunidade para fornecê-lo.


YX

Y=1Y=0X=1p11p10X=0p01p00

XiYi

OR=p11p00p01p10

pij=P(Y=i|X=j)P(X=j)XY|X

OR=P(Y=1|X=1)P(Y=0|X=1)P(Y=0|X=0)P(Y=1|X=0)

Na regressão logística, você modela essas probabilidades diretamente:

log(P(Yi=1|Xi)P(Yi=0|Xi))=β0+β1Xi

OR

P(Yi=1|Xi=1)P(Yi=0|Xi=1)=(11+e(β0+β1))(e(β0+β1)1+e(β0+β1))=1e(β0+β1)=e(β0+β1)

e o segundo é:

P(Yi=0|Xi=0)P(Yi=1|Xi=0)=(eβ01+eβ0)(11+eβ0)=eβ0

OR=e(β0+β1)eβ0=eβ1

Z1,...,Zp

P(Y=1|X=1,Z1,...,Zp)P(Y=0|X=1,Z1,...,Zp)P(Y=0|X=0,Z1,...,Zp)P(Y=1|X=0,Z1,...,Zp)

portanto, o odds ratio depende dos valores dos outros preditores no modelo e, em geral, não é igual a

P(Y=1|X=1)P(Y=0|X=1)P(Y=0|X=0)P(Y=1|X=0)

Portanto, não é de surpreender que você esteja observando uma discrepância entre o coeficiente exponencial e o odds ratio observado.

β

Macro
fonte
2
Uau, obrigado por reservar um tempo para escrever uma explicação tão completa.
Mike
@ Macro Descobri que "o valor de p inferior a 0,05" e "95% CI não inclui 1" não são consistentes na regressão logística (usei SAS). Esse fenômeno está relacionado à sua explicação?
user67275
4

exp(β)

μno seu modelo, mas também há problemas se o relacionamento verdadeiro variar entre os níveis de outra covariável, mas um termo de interação não foi incluído, por exemplo.) Depois de estabelecermos que é significativo calcular uma razão de chances exponenciando um beta de um No modelo de regressão logística, podemos fazer perguntas sobre quando as taxas de chances marginal e baseada em modelo diferem, e quais você prefere quando o faz?

0/1r0exp(β)

Se o OR marginal e o OR baseado em modelo diferirem, você deve usar / interpretar a versão baseada em modelo. A razão é que o OR marginal não explica a confusão entre suas covariáveis, enquanto o modelo o faz. Esse fenômeno está relacionado ao Paradox de Simpson , sobre o qual você pode ler (o SEP também tem uma boa entrada , há uma discussão no CV aqui: Basic-simpson's-paradox , e você pode pesquisar na tag do CV ). Por uma questão de simplicidade e praticidade, convém usar apenas o OR baseado em modelo, pois será claramente preferível ou o mesmo.

- Reinstate Monica
fonte