Pelo que entendi, o valor beta exponenciado de uma regressão logística é a razão de chances dessa variável para a variável dependente de interesse. No entanto, o valor não corresponde ao odds ratio calculado manualmente. Meu modelo está prevendo nanismo (uma medida de desnutrição) usando, entre outros indicadores, seguros.
// Odds ratio from LR, being done in stata
logit stunting insurance age ... etc.
or_insurance = exp(beta_value_insurance)
// Odds ratio, manually calculated
odds_stunted_insured = num_stunted_ins/num_not_stunted_ins
odds_stunted_unins = num_stunted_unins/num_not_stunted_unins
odds_ratio = odds_stunted_ins/odds_stunted_unins
Qual é a razão conceitual para esses valores serem diferentes? Controlando por outros fatores na regressão? Só quero poder explicar a discrepância.
Respostas:
Se você estiver apenas colocando esse preditor isolado no modelo, a razão de chances entre o preditor e a resposta será exatamente igual ao coeficiente de regressão exponenciada . Não acho que haja uma derivação desse resultado no presente, por isso aproveitarei a oportunidade para fornecê-lo.
Na regressão logística, você modela essas probabilidades diretamente:
e o segundo é:
portanto, o odds ratio depende dos valores dos outros preditores no modelo e, em geral, não é igual a
Portanto, não é de surpreender que você esteja observando uma discrepância entre o coeficiente exponencial e o odds ratio observado.
fonte
Se o OR marginal e o OR baseado em modelo diferirem, você deve usar / interpretar a versão baseada em modelo. A razão é que o OR marginal não explica a confusão entre suas covariáveis, enquanto o modelo o faz. Esse fenômeno está relacionado ao Paradox de Simpson , sobre o qual você pode ler (o SEP também tem uma boa entrada , há uma discussão no CV aqui: Basic-simpson's-paradox , e você pode pesquisar na tag simpsons-paradox do CV ). Por uma questão de simplicidade e praticidade, convém usar apenas o OR baseado em modelo, pois será claramente preferível ou o mesmo.
fonte