logit - interpretando coeficientes como probabilidades

9

Parece que estou perdendo alguma informação vital. Estou ciente de que o coeficiente de regressão logística está em log (odds), chamado de escala logit. Portanto, para interpretá-los, exp(coef)é obtido e produz OR, o odds ratio.

E se β1=0.012 a interpretação é a seguinte: Para um aumento unitário na covariável X1, o odds ratio de log é de 0,012, o que não fornece informações significativas.

A exponenciação produz que, para uma unidade, o aumento na covariável X1, o odds ratio é de 1,012 (exp(0.012)=1.012) ou Y=1 é 1,012 mais provável que Y=0.

Mas eu gostaria de expressar o coeficiente como porcentagem. De acordo com Gelman e Hill em Análise de dados usando modelos de regressão e multinível / hierárquico , página 111:

Os coeficientes β podem ser exponenciados e tratados como efeitos multiplicativos ".

De modo que se β1 = 0,012, "o aumento multiplicativo esperado é exp (0,012) = 1,012, ou uma diferença positiva de 1,2% ...

No entanto, de acordo com meus scripts

ODDS=p1p

e a fórmula do logit inverso afirma

P=OR1+OR=1.0122.012=0.502

O qual sou tentado a interpretar como se a covariável aumente em uma unidade, a probabilidade de Y = 1 aumente em 50% - o que suponho estar errado, mas não entendo o porquê.

Como os coeficientes de logit podem ser interpretados em termos de probabilidades?

user1607
fonte
(1) Você parece combinar as probabilidades e a razão de chances: são coisas diferentes. (2) Seja um pouco cuidadoso com sua aritmética. Você está lidando com pequenas alterações e precisa de precisão suficiente para expressá-las. Para 1.012 / 2.012, obtenho 0,5030 (para quatro algarismos significativos), que - como uma mudança relativa em relação a 0,50 - é 50% maior que o seu número! (3) Temos vários bons tópicos na interpretação de coeficientes de regressão logística e ORs. Por que você não os procura e os verifica?
whuber
11
@whuber obrigado. Eu pesquisei um pouco mais e encontrei as respostas. Resumi minha descoberta na resposta abaixo. Espero que seja útil para alguns outros usuários também!
user1607

Respostas:

14

Essas razões de chances são exponenciais do coeficiente de regressão correspondente:

odds ratio=eβ^

Por exemplo, se o coeficiente de regressão logística for β^=0.25 o odds ratio é e0.25=1.28.

O odds ratio é o multiplicador que mostra como as probabilidades mudam para um aumento de uma unidade no valor do X. O odds ratio aumenta em um fator de 1,28. Portanto, se o odds ratio inicial for, digamos 0,25, o odds ratio após o aumento de uma unidade na covariável se tornará0.25×1.28.

Outra maneira de tentar interpretar a razão de chances é olhar para a parte fracionária e interpretá-la como uma alteração percentual. Por exemplo, o odds ratio de 1,28 corresponde a um aumento de 28% nas chances de um aumento de 1 unidade no X correspondente.

No caso de estarmos lidando com um efeito decrescente (OR <1), por exemplo, odds ratio = 0,94, haverá uma redução de 6% nas chances de um aumento de 1 unidade no X correspondente.

A fórmula é:

Percent Change in the Odds=(Odds Ratio1)×100
user1607
fonte
+1: boa explicação.
whuber
@ user1607 isso faz sentido. No entanto, não vejo como ele responde à pergunta sobre se o logit inverso para obter probabilidades é a maneira correta ou não?
Blade Runner
7

Parte do problema é que você está tirando uma frase de Gelman e Hill fora de contexto. Aqui está uma captura de tela dos livros do Google:

insira a descrição da imagem aqui

Observe que o cabeçalho diz "Interpretando coeficientes de regressão de Poisson " (ênfase adicionada). A regressão de Poisson usa um link logarítmico, em contraste com a regressão logística, que usa um link logit (log-odds). A interpretação dos coeficientes exponenciados como efeitos multiplicativos funciona apenas para coeficientes em escala logarítmica (ou, com o risco de embaçar levemente as águas, para coeficientes em escala logit, se o risco da linha de base for muito baixo ...)

Todos gostariam de poder citar os efeitos dos tratamentos sobre as probabilidades de maneira simples e universal, independente de escala, mas isso é basicamente impossível: é por isso que existem tantos tutoriais sobre interpretação de probabilidades e probabilidades de log que circulam na natureza e por que os epidemiologistas gastam tanto tempo discutindo sobre risco relativo x razão de chances x ...

Ben Bolker
fonte
4

Se você deseja interpretar em termos de porcentagens, precisa da interceptação em y (β0) Tomar a exponencial da interceptação fornece as probabilidades quando todas as covariáveis ​​são 0, então você pode multiplicar pela razão de chances de um determinado termo para determinar quais seriam as chances quando essa covariável é 1 em vez de 0.

A conversão inversa de logit acima pode ser aplicada às probabilidades para fornecer a porcentagem de chance de Y=1.

Então, quando tudo x=0:

p(Y=1)=eβ01+eβ0

e se x1=1 (e quaisquer outras covariáveis ​​são 0):

p(Y=1)=e(β0+β1)1+e(β0+β1)

e esses podem ser comparados. Mas observe que o efeito dex1 é diferente dependendo β0, não é um efeito constante como na regressão linear, apenas constante na escala de log-odds.

Observe também que sua estimativa de β0dependerá de como os dados foram coletados. Um estudo de caso-controle em que número igual de sujeitos comY=0 e Y=1 são selecionados, então seu valor de x é observado pode dar uma muito diferente β0 estimativa do que uma amostra aleatória simples, e a interpretação da (s) porcentagem (s) da primeira poderia não ter sentido como interpretações do que aconteceria no segundo caso.

Greg Snow
fonte