Suponha que eu receberei algumas amostras de uma distribuição binomial. Uma maneira de modelar meu conhecimento prévio é com uma distribuição Beta com os parâmetros e β . Pelo que entendi, isso é equivalente a ter visto "cabeças" α vezes em testes α + β . Como tal, um bom atalho para fazer a inferência bayesiana completa é usar h + α como minha nova média para a probabilidade de "cabeças" depois de ter vistohcabeças emnensaios.
Agora, suponha que eu tenha mais de dois estados, portanto, eu vou obter algumas amostras de uma distribuição multinomial. Suponha que eu queira usar uma distribuição Dirichlet com o parâmetro como anterior. Novamente, como atalho, posso tratar isso como conhecimento prévio da probabilidade do evento i como sendo equivalente a α i , e se o evento que testemunhaihvezes emnensaios minha posterior paraise tornaH+αi .
Agora, no caso binomial, ele funciona para que o conhecimento prévio de "cabeças" ocorrendo vezes em alfa + beta ensaios é equivalente a "coroa" que ocorrem beta vezes em alfa + beta ensaios. Logicamente, não acredito que possa ter um conhecimento mais forte da probabilidade de "cara" do que de "coroa". Isso fica mais interessante com mais de dois resultados. Se eu disser um dado de seis lados, posso imaginar que meu conhecimento prévio do lado "1" seja equivalente a 10 em 50 tentativas e meu conhecimento prévio do lado "2" seja equivalente a 15 dois em 100 tentativas.
Então, depois de toda essa introdução, minha pergunta é como posso modelar adequadamente esse conhecimento prévio assimétrico no caso multinomial? Parece que, se eu não tomar cuidado, posso obter facilmente resultados ilógicos devido à probabilidade / probabilidade total que não somam 1. Existe alguma maneira de ainda usar o atalho Dirichlet ou preciso sacrificar isso completamente e usar alguns outra distribuição anterior inteiramente?
Perdoe qualquer confusão causada por possíveis abusos na notação ou terminologia acima.
fonte
If I have say a 6-sided die, I can imagine my prior knowledge of side "1" being equivalent to 10 ones in 50 trials and my prior knowledge of side "2" as being equivalent to 15 twos in 100 trials.
Respostas:
Você formou sua pergunta muito bem.
Eu acho que o que você está procurando aqui é um caso de modelagem hierárquica. E você pode modelar várias camadas de hierarquia (no momento você fala apenas de anteriores). Ter outra camada de hiperpriores para os hiperparâmetros permite modelar as variabilidades adicionais nos hiperparâmetros (como você está preocupado com os problemas de variabilidade dos hiperparâmetros). Também torna sua modelagem flexível e robusta (pode ser mais lenta).
Especificamente no seu caso, você pode se beneficiar de ter antecedentes para os parâmetros de distribuição do Dirichlet (Beta é um caso especial). Este post de Gelman fala sobre como impor a priori os parâmetros da distribuição de Dirichlet. Ele também cita seus artigos em um diário de toxicologia.
fonte