Neste caso, é possível recolher os seus dados a
X∖Y010S00S101S01S11
onde
Sij é o número de casos para
x=i e
y=j com
i,j∈{0,1} . Suponha que não haja
n observações gerais.
Se encaixa no modelo (onde g é a nossa função de ligação) veremos que β 0 é a logit da proporção de sucessos quando x i = 0 e p 0 + β 1 é a logit da proporção de sucessos quandopi=g−1(xTiβ)=g−1(β0+β11xi=1)gβ^0xi=0β^0+β^1 . Em outras
palavras, β 0 = g ( S 01xi=1
e
β 0+ β 1=g(S11
β^0=g(S01S00+S01)
β^0+β^1=g(S11S10+S11).
Vamos verificar isso R
.
n <- 54
set.seed(123)
x <- rbinom(n, 1, .4)
y <- rbinom(n, 1, .6)
tbl <- table(x=x,y=y)
mod <- glm(y ~ x, family=binomial())
# all the same at 0.5757576
binomial()$linkinv( mod$coef[1])
mean(y[x == 0])
tbl[1,2] / sum(tbl[1,])
# all the same at 0.5714286
binomial()$linkinv( mod$coef[1] + mod$coef[2])
mean(y[x == 1])
tbl[2,2] / sum(tbl[2,])
Portanto, os coeficientes de regressão logística são exatamente transformações de proporções vindas da tabela.
O resultado é que certamente podemos analisar esse conjunto de dados com uma regressão logística se tivermos dados provenientes de uma série de variáveis aleatórias de Bernoulli, mas isso não é diferente de analisar diretamente a tabela de contingência resultante.
Yi|xi∼⊥Bern(pi)xipi=g−1(β0+β1xi)xipip0p1
∑i:xi=0Yi=S01∼Bin(n0,p0)
∑i:xi=1Yi=S11∼Bin(n1,p1).
xin0n1
S01/n0=S01S00+S01→pp0 and S11/n1=S11S10+S11→pp1.
Yi|xi=j∼Bern(pj)Sj1∼Bin(nj,pj)