Modelagem bayesiana hierárquica das taxas de incidência

8

O livro de Kevin Murphy discute um problema bayesiano hierárquico clássico (originalmente discutido em Johnson and Albert, 1999, p24):

Suponha que estamos tentando estimar a taxa de câncer em cidades. Em cada cidade, amostramos um número de indivíduos e medimos o número de pessoas com câncer , onde é a verdadeira taxa de câncer na cidade.N i x i ~ Bin ( N i , θ i ) θ iNNixiBin(Ni,θi)θi

Gostaríamos de estimar os 's, permitindo que as cidades com poucos dados emprestem força estatística de cidades ricas em dados.θi

Para isso, ele modela para que todas as cidades compartilhem o mesmo anterior, para que os modelos finais tenham a seguinte aparência:θiBeta(a,b)

p(D,θ,η|N)=p(η)i=1NBin(xi|Ni,θi)Beta(θi|η)

onde .η=(a,b)

A parte crucial sobre esse modelo é, é claro (cito), "que deduzimos dos dados, pois, se o apenas em uma constante, o será condicionalmente independente, e aí não haverá fluxo de informações entre eles ".θ iη=(a,b)θi


Eu estou tentando modelar isso no PyMC , mas, tanto quanto eu entendo, eu preciso de um prior para e (acredito que seja acima). Qual seria uma boa prévia para esse modelo?b p ( η )abp(η)

Caso ajude, o código, como eu o tenho agora, é:

bins = dict()
ps   = dict()
for i in range(N_cities):
    ps[i]   = pm.Beta("p_{}".format(i), alpha=a, beta=b)
    bins[i] = pm.Binomial('bin_{}'.format(i), p=ps[i],n=N_trials[i],  value=N_yes[i], observed=True)

mcmc = pm.MCMC([bins, ps])

onde acredito que preciso de um prior para ae b. Como devo escolher um?

Amelio Vazquez-Reina
fonte

Respostas:

9

Um problema semelhante é discutido em Gelman, Bayesian Data Analysis , (2ª ed., P. 128; 3ª edição, p. 110). Gelman sugere um , que restringe efetivamente o "tamanho da amostra anterior" e, portanto, o beta hiperprior provavelmente não é altamente informativo sozinho. (À medida que a quantidade aumenta, a variação da distribuição beta diminui; nesse caso, uma variação anterior menor restringe o "peso" dos dados observados no posterior.) Além disso, esse prioritário não define se , ou pelo contrário, distribuições apropriadas de pares de são inferidas de todos os dados juntos, como você preferiria neste problema. um + b um + b uma > b ( um , b )p(a,b)(a+b)5/2a+ba+ba>b(a,b)

Gelman também sugere reparametrizar o modelo em termos do logit da média de e do "tamanho da amostra" do anterior. Portanto, em vez de fazer inferência diretamente em , o problema é sobre inferência nas quantidades transformadas e . Isso admite valores anteriores transformados no plano real, em vez de valores anteriores não transformados que devem ser estritamente positivos. Além disso, isso obtém uma densidade posterior mais difusa quando plotada. Isso torna os gráficos que o acompanham mais legíveis, o que acho útil.( a , b ) logit ( aθ(a,b)log(a+b)logit(aa+b)log(a+b)

Sycorax diz restabelecer Monica
fonte
1
Obrigado @ user777. Infelizmente eu sou incapaz de usar priores múltiplas variáveis no momento, então eu deixei uma pergunta de acompanhamento aqui
Amelio Vazquez-Reina