Inferência bayesiana para distribuição multinomial com conhecimento prévio assimétrico?

8

Suponha que eu receberei algumas amostras de uma distribuição binomial. Uma maneira de modelar meu conhecimento prévio é com uma distribuição Beta com os parâmetros e β . Pelo que entendi, isso é equivalente a ter visto "cabeças" α vezes em testes α + β . Como tal, um bom atalho para fazer a inferência bayesiana completa é usar h + ααβαα+β como minha nova média para a probabilidade de "cabeças" depois de ter vistohcabeças emnensaios.h+αn+α+βhn

Agora, suponha que eu tenha mais de dois estados, portanto, eu vou obter algumas amostras de uma distribuição multinomial. Suponha que eu queira usar uma distribuição Dirichlet com o parâmetro como anterior. Novamente, como atalho, posso tratar isso como conhecimento prévio da probabilidade do evento i como sendo equivalente a α iαi , e se o evento que testemunhaihvezes emnensaios minha posterior paraise tornaH+αiαiαji hni .h+αin+αj

Agora, no caso binomial, ele funciona para que o conhecimento prévio de "cabeças" ocorrendo vezes em alfa + beta ensaios é equivalente a "coroa" que ocorrem beta vezes em alfa + beta ensaios. Logicamente, não acredito que possa ter um conhecimento mais forte da probabilidade de "cara" do que de "coroa". Isso fica mais interessante com mais de dois resultados. Se eu disser um dado de seis lados, posso imaginar que meu conhecimento prévio do lado "1" seja equivalente a 10 em 50 tentativas e meu conhecimento prévio do lado "2" seja equivalente a 15 dois em 100 tentativas.αα+ββα+β

Então, depois de toda essa introdução, minha pergunta é como posso modelar adequadamente esse conhecimento prévio assimétrico no caso multinomial? Parece que, se eu não tomar cuidado, posso obter facilmente resultados ilógicos devido à probabilidade / probabilidade total que não somam 1. Existe alguma maneira de ainda usar o atalho Dirichlet ou preciso sacrificar isso completamente e usar alguns outra distribuição anterior inteiramente?

Perdoe qualquer confusão causada por possíveis abusos na notação ou terminologia acima.

Michael McGowan
fonte
If I have say a 6-sided die, I can imagine my prior knowledge of side "1" being equivalent to 10 ones in 50 trials and my prior knowledge of side "2" as being equivalent to 15 twos in 100 trials.1250100α1=20/100α2=15/100
i=1i=6αi=1
Finalmente, este artigo de Kemp al. é muito relevante e divertido de ler.
precisa saber é o seguinte
@Berkan Ainda não li o artigo (obrigado!), Mas a razão pela qual não unifiquei o tamanho das amostras é porque 20/100 não é o mesmo antes de 10/50, e esse fato é muito importante para o razão pela qual esta pergunta foi feita.
22413 Michael McGowan #
Porque você está mais confiante no primeiro devido a um valor mais alto. tamanho da amostra?
Zhubarb 7/11

Respostas:

2

Você formou sua pergunta muito bem.

Eu acho que o que você está procurando aqui é um caso de modelagem hierárquica. E você pode modelar várias camadas de hierarquia (no momento você fala apenas de anteriores). Ter outra camada de hiperpriores para os hiperparâmetros permite modelar as variabilidades adicionais nos hiperparâmetros (como você está preocupado com os problemas de variabilidade dos hiperparâmetros). Também torna sua modelagem flexível e robusta (pode ser mais lenta).

Especificamente no seu caso, você pode se beneficiar de ter antecedentes para os parâmetros de distribuição do Dirichlet (Beta é um caso especial). Este post de Gelman fala sobre como impor a priori os parâmetros da distribuição de Dirichlet. Ele também cita seus artigos em um diário de toxicologia.

suncoolsu
fonte
Posso ser mais específico de modelagem, mas não quero adivinhar aqui. Se você optou por modificar sua pergunta, adicionarei mais detalhes.
21911 suncoolsu