Por que usar uma distribuição beta no parâmetro Bernoulli para regressão logística hierárquica?

Atualmente, estou lendo o excelente livro "Doing Bayesian Data Analysis" de Kruschke. No entanto, o capítulo sobre regressão logística hierárquica (capítulo 20) é um tanto confuso.

A Figura 20.2 descreve uma regressão logística hierárquica em que o parâmetro de Bernoulli é definido como uma função linear nos coeficientes transformados através de uma função sigmóide. Essa parece ser a maneira como a regressão logística hierárquica é apresentada na maioria dos exemplos que eu já vi em outras fontes online também. Por exemplo - http://polisci2.ucsd.edu/cfariss/code/SIMlogit02.bug

No entanto, quando os preditores são nominais, ele adiciona uma camada na hierarquia - o parâmetro Bernoulli agora é extraído de uma distribuição beta (Figura 20.5) com parâmetros determinados por mu e kappa, em que mu é a transformação sigmóide da função linear dos coeficientes , e kappa usa uma gama anterior.

Isso parece razoável e análogo ao exemplo de troca de moedas do capítulo 9, mas não vejo o que ter preditores nominais tem a ver com adicionar uma distribuição beta. Por que não se faria isso no caso de preditores de métricas e por que a distribuição beta foi adicionada para os preditores nominais?

EDIT: Esclarecimento sobre os modelos que estou me referindo. Primeiro, um modelo de regressão logística com preditores de métricas (sem beta anterior). Isso é semelhante a outros exemplos de regressão logística hierárquica, como o exemplo de bugs acima:

y_{i} \sim Bernoulli (μ_{i}) μ_{i} = sig (β_{0} + \sum_{j} β_{j} x_{j i}) β_{0} \sim N (M_{0}, T_{0}) β_{j} \sim N (M_{β}, T_{β})

$y_i \sim \operatorname{Bernoulli}(\mu_i) \\ \mu_i = \operatorname{sig}(\beta_0 + \sum_j \beta_j x_{ji} ) \\ \beta_0 \sim N(M_0, T_0) \\ \beta_j \sim N(M_\beta, T_\beta) \\$

Em seguida, o exemplo com preditores nominais. Aqui é onde eu não entendo bem o papel do nível "inferior" da hierarquia (incorporando o resultado logístico em uma versão beta anterior para um binômio) e por que deve ser diferente do exemplo da métrica.

z_{i} \sim Bin (θ_{i}, N) θ_{i} \sim Beta (a_{j}, b_{j}) a_{j} = μ_{j} κ b_{j} = (1 - μ_{j}) κ κ \sim Γ (S_{κ}, R_{κ}) μ_{j} = sig (β_{0} + \sum_{j} β_{j} x_{j i}) β_{0} \sim N (M_{0}, T_{0}) β_{j} \sim N (0, τ_{β}) τ_{β} = 1 / σ_{β}^{2} σ_{β}^{2} \sim folded t (T_{t}, D F)

$z_i \sim \operatorname{Bin}(\theta_i, N) \\ \theta_i \sim \operatorname{Beta}(a_j, b_j) \\ a_j = \mu_j \kappa \\ b_j = (1- \mu_j) \kappa \\ \kappa \sim \Gamma(S_\kappa, R_\kappa) \\ \mu_j = \operatorname{sig}(\beta_0 + \sum_j \beta_j x_{ji} ) \\ \beta_0 \sim N(M_0, T_0) \\ \beta_j \sim N(0, \tau_\beta) \\ \tau_\beta = 1/\sigma_{\beta}^2 \\ \sigma_{\beta}^2 \sim \operatorname{folded t} (T_t, DF)$

regression bayesian logistic multilevel-analysis user4733
fonte

Respostas:

Os dois modelos que você compara têm muitos recursos estranhos, e acho que você pode reafirmar sua pergunta mais claramente no contexto dos dois modelos simplificados a seguir:

Modelo 1:

\begin{aligned} y_{Eu} | μ_{Eu} & \sim Berna (μ_{Eu}) \\ μ_{Eu} & \sim π (μ_{Eu}) \end{aligned}

$\begin{align} y_i | \mu_i &\sim \operatorname{Bern}( \mu_i ) \\ \mu_i &\sim \pi(\mu_i) \end{align}$

Modelo 2:

\begin{aligned} y_{Eu} | θ_{Eu} & \sim Berna (θ_{Eu}) \\ θ_{Eu} | μ_{Eu}, κ & \sim Beta (μ_{Eu} κ, (1 - μ_{Eu}) κ) \\ μ_{Eu} & \sim π (μ_{Eu}) \end{aligned}

$\begin{align} y_i | \theta_i & \sim \operatorname{Bern}( \theta_i ) \\ \theta_i | \mu_i,\kappa &\sim \operatorname{Beta}\big( \mu_i\kappa, (1-\mu_i)\kappa \big) \\ \mu_i&\sim \pi(\mu_i) \end{align}$

Suas perguntas são: (1) qual o papel desempenhado pela distribuição beta; e relacionados, (2) como (se é que existe) o Modelo 2 é diferente do Modelo 1?

$\mu_i$ $\mu_i$

\begin{matrix} p (μ_{Eu} | y_{Eu}) \propto μ_{Eu}^{y_{Eu}} (1 - μ_{Eu})^{1 - y_{Eu}} π (μ_{Eu}) \end{matrix}

$\begin{gather} p(\mu_i|y_i) \propto \mu_i^{y_i}(1-\mu_i)^{1-y_i}\pi(\mu_i) \end{gather}$

μ_{i}

$\mu_i$

\begin{aligned} p (μ_{Eu} | y_{Eu}, κ) & \propto \int_{0 0}^{1} \frac{θ_{Eu}^{y_{Eu} + μ_{Eu} κ - 1} (1 - θ_{Eu})^{κ (1 - μ_{Eu}) - y_{Eu}}}{B (κ μ_{Eu}, κ (1 - μ_{Eu}))} d θ π (μ_{Eu}) \\ \propto \frac{B (y_{Eu} + μ_{Eu} κ, 1 - y_{Eu} + κ (1 - μ_{Eu})) π (μ_{Eu})}{B (κ μ_{Eu}, κ (1 - μ_{Eu}))} \\ \propto μ_{Eu}^{y_{Eu}} (1 - μ_{Eu})^{1 - y_{Eu}} π (μ_{Eu}) \end{aligned}

$\begin{align} p(\mu_i|y_i,\kappa) &\propto \int^1_0 \frac{\theta_i^{y_i + \mu_i\kappa - 1}(1-\theta_i)^{\kappa(1-\mu_i)-y_i}}{B\big(\kappa\mu_i,\kappa(1-\mu_i)\big)} d\theta \,\pi(\mu_i) \\ &\propto \frac{B\big(y_i+\mu_i\kappa,1-y_i+\kappa(1-\mu_i)\big)\pi(\mu_i) }{B\big(\kappa\mu_i,\kappa(1-\mu_i)\big)} \\ &\propto \mu_i^{y_i}(1-\mu_i)^{1-y_i} \pi(\mu_i) \end{align}$

Portanto, qualquer vantagem obtida com o uso do Modelo 2 é computacional. Superparametrizar modelos hierárquicos, como a adição de $\theta_i$ no modelo 2, às vezes pode melhorar a eficiência do procedimento de amostragem; por exemplo, introduzindo relacionamentos condicionalmente conjugados entre grupos de parâmetros (consulte a resposta de Jack Tanner) ou interrompendo a correlação entre parâmetros de interesse (google "Expansão de parâmetros").

jmtroos
fonte

The reason for drawing the Bernoulli parameter from a beta distribution is that the beta is conjugate to the binomial. Using a conjugate prior distribution enables a closed-form solution to finding the posterior.

EDIT: clarifying. Either model will work. Even with MCMC, it's useful to have conjugate priors because that permits the use of specialized samplers for various types of distributions that are more efficient than generic samplers. For example, see the JAGS user manual sec. 4.1.1 and sec 4.2.

Jack Tanner
fonte

There may not be enough context from the book in my question, but these analyses are performed with Gibbs sampling, so a closed form representation of the posterior isn't necessary. In the example I linked, the bernoulli parameter isn't fixed as a beta distribution, but arises from a sigmoid transformation of the linear predictors, which have normally distributed coefficients. This is also how Kruschke presents an earlier example (with metric predictors) in the chapter as well (bernoulli parameter is just the sigmoid transformation of the linear function with normally distributed coefficients)

user4733

@ user4733 Jack Tanner está certo quanto ao beta ser o conjugado antes das amostras de bernoulli. parece mais do que uma coincidência que foi escolhido. Sim, você pode estar fazendo uma amostra de Gibbs para obter a distribuição posterior, mas em um modelo hierárquico há mais de um prior envolvido e pode ser que você esteja colocando um prior em um hiperparâmetro (um parâmetro para uma família de distribuições anteriores. prévio sobre a prévia se quiser Nesse contexto, pode ser conveniente usar um conjugado antes Alguns de sua descrição do livro é confuso para nós...

Michael R. Chernick

Você está fazendo pequenos trechos que criam lacunas em nossa capacidade de entender o que está acontecendo. Você precisa descrever o modelo e a hierarquia dos priores melhor para nós para ajudar (pelo menos para mim)>

Michael R. Chernick

Adicionadas algumas descrições aos modelos hierárquicos que estou me referindo. Espero que ajude.

User4733 17/04/12