Qual é a relação entre a distribuição Beta e o modelo de regressão logística?

16

Minha pergunta é: Qual é a relação matemática entre a distribuição Beta e os coeficientes do modelo de regressão logística ?

Para ilustrar: a função logística (sigmóide) é dada por

f(x)=11+exp(x)

e é usado para modelar probabilidades no modelo de regressão logística. Seja A um resultado pontuado dicotômico (0,1) e X uma matriz de projeto. O modelo de regressão logística é dado por

P(A=1|X)=f(Xβ).

Nota X tem uma primeira coluna da constante 1 (interceptação) e β é um vetor de coluna de coeficientes de regressão. Por exemplo, quando temos um regressor (normal-normal) x e escolhemos β0=1 (interceptação) e β1=1 , podemos simular a 'distribuição de probabilidades' resultante.

Histograma de P (A = 1 | X)

Esse gráfico lembra a distribuição Beta (assim como os gráficos para outras opções de β ) cuja densidade é dada por

g(y;p,q)=Γ(p)Γ(q)Γ(p+q)y(p1)(1y)(q1).

Usando a máxima verossimilhança ou métodos de momentos , é possível estimar e q a partir da distribuição de P ( A = 1 | X ) . Assim, minha pergunta se resume a: qual é a relação entre as escolhas de β e p e q ? Para começar, trata-se do caso bivariado indicado acima.pqP(A=1|X)βpq

tomka
fonte
Eu estava pensando isso há 3 horas na minha aula de estatística bayesiana
Alquimista

Respostas:

16

Beta é uma distribuição de valores no intervalo que é muito flexível em sua forma; portanto, para quase qualquer distribuição empírica unimodal de valores em ( 0 , 1 ), é possível encontrar facilmente parâmetros dessa distribuição beta que "se assemelham" à forma da distribuição.(0,1)(0,1)

Observe que a regressão logística fornece probabilidades condicionais , enquanto em seu gráfico você está nos apresentando a distribuição marginal das probabilidades previstas. Essas são duas coisas diferentes para se falar.Pr(Y=1X)

Não há relação direta entre os parâmetros de regressão logística e os parâmetros de distribuição beta quando analisamos a distribuição de previsões do modelo de regressão logística. Abaixo, você pode ver os dados simulados usando distribuições normais, exponenciais e uniformes transformadas usando a função logística. Além de usar exatamente os mesmos parâmetros de regressão logística (ou seja, ), as distribuições das probabilidades previstas são muito diferentes. Portanto, a distribuição das probabilidades previstas depende não apenas dos parâmetros da regressão logística, mas também das distribuições de Xβ0=0,β1=1X 's e não há uma relação simples entre elas.

Logistic function of data simulated under normal, exponential and uniform distributions

Como beta é uma distribuição de valores em , não pode ser usado para modelar dados binários como a regressão logística. Pode ser usado para modelar probabilidades , de tal maneira que usamos regressão beta (veja também aqui e aqui ). Portanto, se você estiver interessado no comportamento das probabilidades (entendidas como variáveis ​​aleatórias), poderá usar a regressão beta para esse fim.(0,1)

Tim
fonte
Portanto, se Beta puder aproximar qualquer distribuição desse tipo, não deveria haver uma relação entre seus parâmetros e ? β
Tomka
4
@ tomka, mas a distribuição depende da distribuição dos seus dados e dos parâmetros, portanto, mesmo que exista essa relação, é muito complicada. Obviamente, não há relação direta entre os parâmetros de regressão e os parâmetros de distribuição beta. Tente simular previsões de regressão logística sob os mesmos parâmetros usando distribuições diferentes para , a distribuição marginal será diferente em cada caso. X
Tim
4
A distribuição beta não é tão flexível - não pode se aproximar das distribuições multimodais.
Marcus PS
@ MarcusPS eu deixei isso mais claro.
Tim
11
@MarcusPS exceto no caso especial de distribuições multimodais com modos em 0 e 1 ...
Ben Bolker
4

A regressão logística é um caso especial de um Modelo Linear Generalizado (GLM). Nesse caso particular de dados binários, a função logística é a função de link canônico que transforma o problema de regressão não linear em questão em um problema linear. Os GLMs são um tanto especiais, no sentido de que se aplicam apenas a distribuições na família exponencial (como a distribuição Binomial).

Na estimativa bayesiana, a distribuição Beta é o conjugado anterior à distribuição binomial, o que significa que uma atualização bayesiana para um Beta anterior, com observações binomiais, resultará em um posterior Beta. Portanto, se você tiver contagens para observações de dados binários, poderá obter uma estimativa bayesiana analítica dos parâmetros da distribuição binomial usando um Beta anterior.

Portanto, de acordo com o que foi dito por outros, não acho que exista uma relação direta, mas a distribuição Beta e a regressão logística têm relações estreitas com a estimativa dos parâmetros de algo que segue uma distribuição binomial.

Marcus PS
fonte
11
I already +1'd for mentioning Bayesian perspective, but notice that in case of regression model we do not use beta-binomial model and beta distribution in general is not used as a prior for parameters -- at least in case of typical Bayesian logistic regression. So this does not directly translate to beta-binomial model.
Tim
3

Maybe there is no direct connection? The distribution of P(A=1|X) largely depends on your simulation of X. If you simulated X with N(0,1), exp(Xβ) will have log-normal distribution with μ=1 given β0=β1=1. The distribution of P(A=1|X) can then be found explicitly: with c.d.f.

F(x)=1Φ[ln(1x1)+1],
inverse c.d.f.
Q(x)=11+exp(Φ1(1x)1),
and p.d.f.
f(x)=1x(1x)2πexp((ln(1/x1)+1)22),
which do not resemble those of Beta distribution.

You can verify the results given above in R:

n = 100000

X = cbind(rep(1, n), rnorm(n)) # simulate design matrix
Y = 1 / (exp(-X %*% c(1,1)) + 1) # P(A=1|X)

Z1 = 1 / (rlnorm(n, -1, 1) + 1) # simulate from lognormal directly
Z2 = 1 / (1 + exp(qnorm(runif(n)) - 1)) # simulate with inverse CDF

# Kolmogorov–Smirnov test
ks.test(Y, Z1)
ks.test(Y, Z2)

# plot fitted density
new.pdf = function(x) {
  1 / (x * (1 - x) * sqrt(2 * pi)) * exp(-0.5 * (log(1 / x - 1) + 1)^2)
}
hist(Y, breaks = "FD", probability = T)
curve(new.pdf, col = 4, add = T)

enter image description here

Francis
fonte
My x is indeed standard-normal (I made an edit). Your density f(x) has support over [inf,inf], whereas the density of P(A|X) should have support only on [0,1]. In fact your f(x) should be the standard normal. In other words you have not yet shown the distribution of P(A|X).
tomka
@tomka Logarithm put 1/x1>0, so x(0,1). Also f is not pdf of standard normal, note the denominator.
Francis
Why would the CLT have any applicability to the distribution of a regressor variable X??
whuber
@whuber: looks like I have mistaken something, I removed that part.
Francis