Por que usar uma distribuição beta no parâmetro Bernoulli para regressão logística hierárquica?

13

Atualmente, estou lendo o excelente livro "Doing Bayesian Data Analysis" de Kruschke. No entanto, o capítulo sobre regressão logística hierárquica (capítulo 20) é um tanto confuso.

A Figura 20.2 descreve uma regressão logística hierárquica em que o parâmetro de Bernoulli é definido como uma função linear nos coeficientes transformados através de uma função sigmóide. Essa parece ser a maneira como a regressão logística hierárquica é apresentada na maioria dos exemplos que eu já vi em outras fontes online também. Por exemplo - http://polisci2.ucsd.edu/cfariss/code/SIMlogit02.bug

No entanto, quando os preditores são nominais, ele adiciona uma camada na hierarquia - o parâmetro Bernoulli agora é extraído de uma distribuição beta (Figura 20.5) com parâmetros determinados por mu e kappa, em que mu é a transformação sigmóide da função linear dos coeficientes , e kappa usa uma gama anterior.

Isso parece razoável e análogo ao exemplo de troca de moedas do capítulo 9, mas não vejo o que ter preditores nominais tem a ver com adicionar uma distribuição beta. Por que não se faria isso no caso de preditores de métricas e por que a distribuição beta foi adicionada para os preditores nominais?

EDIT: Esclarecimento sobre os modelos que estou me referindo. Primeiro, um modelo de regressão logística com preditores de métricas (sem beta anterior). Isso é semelhante a outros exemplos de regressão logística hierárquica, como o exemplo de bugs acima:

yiBernoulli(μi)μi=sig(β0+jβjxji)β0N(M0,T0)βjN(Mβ,Tβ)

Em seguida, o exemplo com preditores nominais. Aqui é onde eu não entendo bem o papel do nível "inferior" da hierarquia (incorporando o resultado logístico em uma versão beta anterior para um binômio) e por que deve ser diferente do exemplo da métrica.

ziBin(θi,N)θiBeta(aj,bj)aj=μjκbj=(1μj)κκΓ(Sκ,Rκ)μj=sig(β0+jβjxji)β0N(M0,T0)βjN(0,τβ)τβ=1/σβ2σβ2folded t(Tt,DF)
user4733
fonte

Respostas:

9

Os dois modelos que você compara têm muitos recursos estranhos, e acho que você pode reafirmar sua pergunta mais claramente no contexto dos dois modelos simplificados a seguir:

Modelo 1:

yEu|μEuBerna(μEu)μEuπ(μEu)

Modelo 2:

yEu|θEuBerna(θEu)θEu|μEu,κBeta(μEuκ,(1-μEu)κ)μEuπ(μEu)

Suas perguntas são: (1) qual o papel desempenhado pela distribuição beta; e relacionados, (2) como (se é que existe) o Modelo 2 é diferente do Modelo 1?

μEuμEu

p(μEu|yEu)μEuyEu(1-μEu)1-yEuπ(μEu)
μEu
p(μEu|yEu,κ)0 01θEuyEu+μEuκ-1(1-θEu)κ(1-μEu)-yEuB(κμEu,κ(1-μEu))dθπ(μEu)B(yEu+μEuκ,1-yEu+κ(1-μEu))π(μEu)B(κμEu,κ(1-μEu))μEuyEu(1-μEu)1-yEuπ(μEu)

Portanto, qualquer vantagem obtida com o uso do Modelo 2 é computacional. Superparametrizar modelos hierárquicos, como a adição deθEuno modelo 2, às vezes pode melhorar a eficiência do procedimento de amostragem; por exemplo, introduzindo relacionamentos condicionalmente conjugados entre grupos de parâmetros (consulte a resposta de Jack Tanner) ou interrompendo a correlação entre parâmetros de interesse (google "Expansão de parâmetros").

jmtroos
fonte
5

The reason for drawing the Bernoulli parameter from a beta distribution is that the beta is conjugate to the binomial. Using a conjugate prior distribution enables a closed-form solution to finding the posterior.

EDIT: clarifying. Either model will work. Even with MCMC, it's useful to have conjugate priors because that permits the use of specialized samplers for various types of distributions that are more efficient than generic samplers. For example, see the JAGS user manual sec. 4.1.1 and sec 4.2.

Jack Tanner
fonte
There may not be enough context from the book in my question, but these analyses are performed with Gibbs sampling, so a closed form representation of the posterior isn't necessary. In the example I linked, the bernoulli parameter isn't fixed as a beta distribution, but arises from a sigmoid transformation of the linear predictors, which have normally distributed coefficients. This is also how Kruschke presents an earlier example (with metric predictors) in the chapter as well (bernoulli parameter is just the sigmoid transformation of the linear function with normally distributed coefficients)
user4733
@ user4733 Jack Tanner está certo quanto ao beta ser o conjugado antes das amostras de bernoulli. parece mais do que uma coincidência que foi escolhido. Sim, você pode estar fazendo uma amostra de Gibbs para obter a distribuição posterior, mas em um modelo hierárquico há mais de um prior envolvido e pode ser que você esteja colocando um prior em um hiperparâmetro (um parâmetro para uma família de distribuições anteriores. prévio sobre a prévia se quiser Nesse contexto, pode ser conveniente usar um conjugado antes Alguns de sua descrição do livro é confuso para nós...
Michael R. Chernick
1
Você está fazendo pequenos trechos que criam lacunas em nossa capacidade de entender o que está acontecendo. Você precisa descrever o modelo e a hierarquia dos priores melhor para nós para ajudar (pelo menos para mim)>
Michael R. Chernick
Adicionadas algumas descrições aos modelos hierárquicos que estou me referindo. Espero que ajude.
User4733 17/04/12