Faz sentido usar a regressão logística com resultado binário e preditor?

18

Eu tenho uma variável de resultado binário {0,1} e uma variável preditora {0,1}. Penso que não faz sentido fazer logística, a menos que eu inclua outras variáveis ​​e calcule o odds ratio.

Com um preditor binário, o cálculo da probabilidade não seria suficiente versus o odds ratio?

keval
fonte

Respostas:

26

Neste caso, é possível recolher os seus dados a

XY010S00S011S10S11
onde Sij é o número de casos para x=i e y=j com i,j{0,1} . Suponha que não haja n observações gerais.

Se encaixa no modelo (onde g é a nossa função de ligação) veremos que β 0 é a logit da proporção de sucessos quando x i = 0 e p 0 + β 1 é a logit da proporção de sucessos quandopi=g1(xiTβ)=g1(β0+β11xi=1)gβ^0xi=0β^0+β^1 . Em outras palavras, β 0 = g ( S 01xi=1 e β 0+ β 1=g(S11

β^0=g(S01S00+S01)
β^0+β^1=g(S11S10+S11).

Vamos verificar isso R.

n <- 54
set.seed(123)
x <- rbinom(n, 1, .4)
y <- rbinom(n, 1, .6)

tbl <- table(x=x,y=y)

mod <- glm(y ~ x, family=binomial())

# all the same at 0.5757576
binomial()$linkinv( mod$coef[1])
mean(y[x == 0])
tbl[1,2] / sum(tbl[1,])

# all the same at 0.5714286
binomial()$linkinv( mod$coef[1] + mod$coef[2])
mean(y[x == 1])
tbl[2,2] / sum(tbl[2,])

Portanto, os coeficientes de regressão logística são exatamente transformações de proporções vindas da tabela.

O resultado é que certamente podemos analisar esse conjunto de dados com uma regressão logística se tivermos dados provenientes de uma série de variáveis ​​aleatórias de Bernoulli, mas isso não é diferente de analisar diretamente a tabela de contingência resultante.


Yi|xiBern(pi)xipi=g1(β0+β1xi)xipip0p1

i:xi=0Yi=S01Bin(n0,p0)
i:xi=1Yi=S11Bin(n1,p1).
xin0n1

S01/n0=S01S00+S01pp0 and S11/n1=S11S10+S11pp1.

Yi|xi=jBern(pj)Sj1Bin(nj,pj)

jld
fonte
1

Quando você tem mais de um preditores e todos os preditores são variáveis ​​binárias, você pode ajustar um modelo usando a Regressão Lógica [1] (observe que é "Lógica" e não "Logística"). É útil quando você acredita que os efeitos de interação entre seus preditores são importantes. Há uma implementação no R ( LogicRegpacote).

[1] Ruczinski, I., Kooperberg, C., & LeBlanc, M. (2003). Regressão lógica. Jornal de Estatísticas Computacionais e Gráficas, 12 (3), 475-511.

horaceT
fonte
1
A pergunta é especificamente sobre um regressor, portanto, sua resposta serviria melhor como um comentário.
Richard Hardy