Faz sentido usar a regressão logística com resultado binário e preditor?

18

Eu tenho uma variável de resultado binário {0,1} e uma variável preditora {0,1}. Penso que não faz sentido fazer logística, a menos que eu inclua outras variáveis e calcule o odds ratio.

Com um preditor binário, o cálculo da probabilidade não seria suficiente versus o odds ratio?

r regression probability logistic odds-ratio keval
fonte

26

Neste caso, é possível recolher os seus dados a

\begin{array}{ccc} X ∖ Y & 0 & 1 \\ 0 & S_{00} & S_{01} \\ 1 & S_{10} & S_{11} \end{array}

$\begin{array}{c|cc} X \backslash Y & 0 & 1 \\ \hline 0 & S_{00} & S_{01} \\ 1 & S_{10} & S_{11} \end{array}$ onde

S_{i j}

$S_{ij}$ é o número de casos para

x = i

$x = i$ e

y = j

$y =j$ com

i, j \in {0, 1}

$i,j \in \{0,1\}$ . Suponha que não haja

n

$n$ observações gerais.

Se encaixa no modelo (onde é a nossa função de ligação) veremos que é a logit da proporção de sucessos quando e é a logit da proporção de sucessos quando $p_i = g^{-1}(x_i^T \beta) = g^{-1}(\beta_0 + \beta_1 1_{x_i = 1})$ $g$ $\hat \beta_0$ $x_i = 0$ $\hat \beta_0 + \hat \beta_1$ . Em outras $x_i = 1$ e

{\hat{β}}_{0} = g (\frac{S_{01}}{S_{00} + S_{01}})

$\hat \beta_0 = g\left(\frac{S_{01}}{S_{00} + S_{01}}\right)$

{\hat{β}}_{0} + {\hat{β}}_{1} = g (\frac{S_{11}}{S_{10} + S_{11}}) .

$\hat \beta_0 + \hat \beta_1 = g\left(\frac{S_{11}}{S_{10} + S_{11}}\right).$

Vamos verificar isso R.

n <- 54
set.seed(123)
x <- rbinom(n, 1, .4)
y <- rbinom(n, 1, .6)

tbl <- table(x=x,y=y)

mod <- glm(y ~ x, family=binomial())

# all the same at 0.5757576
binomial()$linkinv( mod$coef[1])
mean(y[x == 0])
tbl[1,2] / sum(tbl[1,])

# all the same at 0.5714286
binomial()$linkinv( mod$coef[1] + mod$coef[2])
mean(y[x == 1])
tbl[2,2] / sum(tbl[2,])

Portanto, os coeficientes de regressão logística são exatamente transformações de proporções vindas da tabela.

O resultado é que certamente podemos analisar esse conjunto de dados com uma regressão logística se tivermos dados provenientes de uma série de variáveis aleatórias de Bernoulli, mas isso não é diferente de analisar diretamente a tabela de contingência resultante.

$Y_i | x_i \stackrel{\perp}{\sim} \text{Bern}(p_i)$ $x_i$ $p_i = g^{-1}\left( \beta_0 + \beta_1 x_i\right)$ $x_i$ $p_i$ $p_0$ $p_1$

\sum_{i : x_{i} = 0} Y_{i} = S_{01} \sim Bin (n_{0}, p_{0})

$\sum \limits_{i : x_i = 0} Y_i = S_{01} \sim \text{Bin} \left(n_0, p_0\right)$

\sum_{i : x_{i} = 1} Y_{i} = S_{11} \sim Bin (n_{1}, p_{1}) .

$\sum \limits_{i : x_i = 1} Y_i = S_{11} \sim \text{Bin} \left(n_1, p_1\right).$

x_{i}

$x_i$

n_{0}

$n_0$

n_{1}

$n_1$

S_{01} / n_{0} = \frac{S_{01}}{S_{00} + S_{01}} \to_{p} p_{0} and S_{11} / n_{1} = \frac{S_{11}}{S_{10} + S_{11}} \to_{p} p_{1} .

$S_{01} / n_0 = \frac{S_{01}}{S_{00} + S_{01}} \to_p p_0 \hspace{2mm} \text{ and } \hspace{2mm} S_{11} / n_1 = \frac{S_{11}}{S_{10} + S_{11}} \to_p p_1.$

$Y_i | x_i = j \sim \text{Bern}(p_j)$ $S_{j1} \sim \text{Bin}(n_j, p_j)$

jld
fonte

1

Quando você tem mais de um preditores e todos os preditores são variáveis binárias, você pode ajustar um modelo usando a Regressão Lógica [1] (observe que é "Lógica" e não "Logística"). É útil quando você acredita que os efeitos de interação entre seus preditores são importantes. Há uma implementação no R ( LogicRegpacote).

[1] Ruczinski, I., Kooperberg, C., & LeBlanc, M. (2003). Regressão lógica. Jornal de Estatísticas Computacionais e Gráficas, 12 (3), 475-511.

horaceT
fonte

1

A pergunta é especificamente sobre um regressor, portanto, sua resposta serviria melhor como um comentário.

Richard Hardy

Faz sentido usar a regressão logística com resultado binário e preditor?

Respostas: