Eu apenas comecei a construir modelos em stan ; para familiarizar-me com a ferramenta, estou trabalhando em alguns dos exercícios em Análise Bayesiana de Dados (2ª ed.). O exercício Waterbuck supõe que os dados , com ( N , θ ) desconhecido. Como o Hamiltoniano Monte Carlo não permite parâmetros discretos, declarei N como um real ∈ [ 72 , ∞ ) e codifiquei uma distribuição binomial de valor real usando a funçãolbeta
Um histograma dos resultados parece praticamente idêntico ao que eu encontrei ao calcular diretamente a densidade posterior. No entanto, estou preocupado que possa haver algumas razões sutis em que não devo confiar nesses resultados em geral; Como a inferência com valor real em atribui probabilidade positiva a valores não inteiros, sabemos que esses valores são impossíveis, pois o waterbuck fracionário não existe na realidade. Por outro lado, os resultados parecem bons, portanto a simplificação parece não ter efeito na inferência nesse caso.
Existem princípios orientadores ou regras práticas para modelagem dessa maneira, ou esse método de "promover" um parâmetro discreto para uma prática realmente ruim?
fonte
Respostas:
Primeiro, sinta-se à vontade para fazer perguntas como essa na lista de usuários ( http://mc-stan.org/mailing-lists.html ), onde discutimos não apenas questões relacionadas às implementações / otimizações / etc da Stan, mas também estatísticas e práticas práticas. perguntas de modelagem.
Quanto à sua pergunta, é absolutamente uma boa abordagem. Existem muitas maneiras de justificá-lo com mais rigor (por exemplo, observando a divergência entre o CDF discreto e sua aproximação contínua), mas basicamente desde que sua variação seja maior que algumas vezes a unidade, a discretização faltante não terá realmente nenhum efeito. efeito nas inferências subsequentes.
Esse tipo de aproximação é onipresente, um exemplo comum é a aproximação de uma distribuição multinomial como um produto de distribuições independentes de Poisson, que são então aproximadas como distribuições gaussianas.
fonte