Ajude-me a entender o odds ratio ajustado em regressão logística

20

Eu tenho dificuldade em entender o uso da regressão logística em um artigo. O artigo disponível aqui utiliza regressão logística para prever a probabilidade de complicações durante a cirurgia de catarata.

O que me confunde é que o artigo apresenta um modelo que atribui odds ratio de 1 à linha de base descrita a seguir:

Um paciente cujo perfil de risco estava no grupo de referência para todos os indicadores de risco (ou seja, OR ajustado = 1,00 para todos na Tabela 1) pode ser considerado como tendo um 'perfil de risco de linha de base', e o modelo de regressão logística indica uma 'probabilidade prevista de linha de base' para PCR ou VL ou ambos = 0,736%.

Portanto, a probabilidade de 0,00736 é apresentada com odds ratio de 1. Com base na transformação de probabilidades em odds ratio: o=p1-p , isso não pode ser igual a 1: 0.00741=0.0073610.00736 .

Fica ainda mais confuso. O odds ratio composto que representa várias covariáveis ​​com valores diferentes da linha de base é usado para calcular o risco previsto.

... o OR composto da Tabela 1 seria 1,28 X 1,58 X 2,99 X 2,46 X 1,45 X 1,60 = 34,5 e, a partir do gráfico da Figura 1, vemos que esse OR corresponde a uma probabilidade prevista de PCR ou VL ou ambos de cerca de 20%

A única maneira de chegar aos valores que o artigo está fornecendo como exemplo é multiplicar a probabilidade da linha de base com probabilidades compostas como esta: 0.2025=(34.50 × 0.00736)1 + (34.50 × 0.00736) .

Então, o que está acontecendo aqui? Qual é a lógica para atribuir a razão de chances 1 a uma probabilidade de linha de base que não seja 0,5? A fórmula de atualização que criei acima apresenta as probabilidades corretas para exemplos no artigo, mas essa não é a multiplicação direta da razão de chances que eu esperaria. Então o que é?

mahonya
fonte
8
Você pode ter uma simples confusão sobre a terminologia: é uma probabilidade , não uma razão de chances. Um odds ratio é a divisão de uma dessas expressões por outra. p/(1-p)
whuber

Respostas:

35

As probabilidades são uma maneira de expressar chances. As probabilidades são justas: uma chance dividida por outra. Isso significa que um odds ratio é o que você multiplica uma chance para produzir outra. Vamos ver como eles funcionam nessa situação comum.

Convertendo entre probabilidades e probabilidade

As probabilidades de uma resposta binária são a razão da chance que ocorre (codificada com 1 ), escrita Pr ( Y = 1 ) , e a chance que não ocorre (codificada com 0 ), escrita Pr ( Y = 0 ) :Y1Pr(Y=1)0 0Pr(Y=0 0)

Odds(Y)=Pr(Y=1)Pr(Y=0 0)=Pr(Y=1)1-Pr(Y=1).

A expressão equivalente à direita mostra que basta modelar para encontrar as probabilidades. Por outro lado, observe que podemos resolverPr(Y=1)

Pr(Y=1)=Odds(Y)1+Odds(Y)=1-11+Odds(Y).

Regressão logística

A regressão logística modela o logaritmo das chances de como uma função linear das variáveis ​​explicativas. Geralmente, escrevendo essas variáveis ​​como x 1 , , x pYx1,...,xp e incluindo um possível termo constante na função linear, podemos nomear os coeficientes (que devem ser estimados a partir dos dados) como e β 0 . Formalmente, isso produz o modeloβ1,...,βpβ0 0

log(Odds(Y))=β0+β1x1++βpxp.

As probabilidades podem ser recuperadas desfazendo o logaritmo:

Odds(Y)=exp(β0+β1x1++βpxp).

Usando variáveis ​​categóricas

Variáveis ​​categóricas, como faixa etária, sexo, presença de glaucoma, etc. , são incorporadas por meio de "codificação fictícia". Para mostrar que como a variável é codificada não importa, fornecerei um exemplo simples de um pequeno grupo; sua generalização para vários grupos deve ser óbvia. Neste estudo, uma variável é "tamanho da pupila", com três categorias: "Grande", "Média" e "Pequena". (O estudo as trata como puramente categóricas, aparentemente não prestando atenção à sua ordem inerente.) Intuitivamente, cada categoria tem suas próprias probabilidades, digamos para "Grande", α M para "Médio" e α S para "Pequeno" . Isso significa que, todas as outras coisas iguais,αLαMαS

Odds(Y)=exp(αL+β0+β1x1++βpxp)

para qualquer pessoa na categoria "Grande",

Odds(Y)=exp(αM+β0+β1x1++βpxp)

para qualquer pessoa na categoria "Média" e

Odds(Y)=exp(αS+β0+β1x1++βpxp)

para aqueles na categoria "Pequeno".

Criando coeficientes identificáveis

Eu pintei os dois primeiros coeficientes para destacá-los, porque quero que você observe que eles permitem uma mudança simples: podemos escolher qualquer número e, adicionando-o a β 0 e subtraindo-o de cada um de α L ,γβ0αL e α S ,não alteraríamos nenhuma chance prevista. Isso ocorre pelas equivalências óbvias da formaαMαS

αL+β0=(αLγ)+(γ+β0),

etc. Embora isso não apresente problemas para o modelo - ainda prediz exatamente as mesmas coisas -, mostra que os parâmetros não são, por si só, interpretáveis. O que permanece o mesmo quando fazemos essa manobra de adição e subtração são as diferenças entre os coeficientes. Convencionalmente, para resolver essa falta de identificabilidade, as pessoas (e, por padrão, software) escolhem uma das categorias em cada variável como "base" ou "referência" e simplesmente estipulam que seu coeficiente será zero. Isso remove a ambiguidade.

αLαL,αM,αSβ0

β0

Odds(Base category)=exp(β0+β1X1++βpXp).

βiαj

Comparando probabilidades

Vamos comparar as probabilidades. Suponha que um indivíduo hipotético seja um

paciente do sexo masculino, com idades entre 80 e 89 anos, com catarata branca, sem visão do fundo e um pequeno aluno sendo operado por um registrador especialista, ...

α80-89αmale

α80-89+αmale+αno Glaucoma++αspecialist registrar.

Essa é precisamente a quantidade pela qual as chances de log desse paciente variam em relação à base. Para converter de probabilidades de log, desfaça o logaritmo e lembre-se de que isso transforma adição em multiplicação. Portanto, as probabilidades básicas devem ser multiplicadas por

exp(α80-89)exp(αmale)exp(αno Glaucoma)exp(αspecialist registrar).

x1,,xpexp(α80-89)=1.58exp(αmale)=1.28exp(αno Glaucoma)=1.0034.5

Odds(Charlie)=34.5×Odds(Base).

(Observe que todas as categorias de base têm odds ratio de 1,00=exp(0 0), porque incluindo 1no produto o deixa inalterado. É assim que você pode identificar as categorias de base na tabela.)

Reapresentando os resultados como probabilidades

Finalmente, vamos converter esse resultado em probabilidades. Nos disseram que a probabilidade prevista da linha de base é0,736%=0,00736. Portanto, usando as fórmulas relacionadas a probabilidades e probabilidades derivadas desde o início, podemos calcular

Probabilidades (Base)=0,007361-0,00736=0,00741.

Consequentemente, as probabilidades de Charlie são

Probabilidades (Charlie)=34,5×0,00741=0,256.

Por fim, converter isso de volta em probabilidades fornece

Pr(Y(Charlie)=1)=1-11+0,256=0,204.
whuber
fonte
3
whuber: ficar na frente do meu computador depois de um dia anterior muito cansativo e encontrar essa resposta extraordinária de você é simplesmente brilhante. Você me ajudou muito em uma situação muito difícil. Muito Obrigado. (de alguma forma @ whuber não vai aparecer ...)
mahonya