Estou interessado para estimar a densidade de uma variável aleatória contínua . Uma maneira de fazer isso que aprendi é o uso da Estimativa de Densidade do Kernel.
Mas agora estou interessado em uma abordagem bayesiana que se segue nas seguintes linhas. Inicialmente, eu acredito que segue uma distribuição F . Eu tomo n leituras de X . Existe alguma abordagem para atualizar F base nas minhas novas leituras?
Sei que parece que estou me contradizendo: se acredito apenas em como minha distribuição anterior, nenhum dado deve me convencer do contrário. No entanto, suponha que F seja U n i f [ 0 , 1 ] e meus pontos de dados sejam como ( 0,3 ; 0,5 ; 0,9 ; 1,7 ) . Vendo 1.7 , obviamente não posso me ater ao meu anterior, mas como devo atualizá-lo?
Atualização: Com base nas sugestões dos comentários, comecei a analisar o processo Dirichlet. Deixe-me usar as seguintes notações:
Depois de enquadrar meu problema original nesse idioma, acho que estou interessado no seguinte: . Como se faz isso?
Em este conjunto de notas (página 2), o autor fez um exemplo de (Esquema de Urna Polya). Não tenho certeza se isso é relevante.
Atualização 2: Eu também gostaria de perguntar (depois de ver as notas): como as pessoas escolhem para o PD? Parece uma escolha aleatória. Além disso, como as pessoas escolhem um H anterior para DP? Devo apenas usar um prior para θ como meu prior para H ?
fonte
Respostas:
Since you want a bayesian approach, you need to assume some prior knowledge about the thing you want to estimate. This will be in the form of a distribution.
Agora, há o problema de que agora é uma distribuição por distribuições. No entanto, isso não é problema se você assumir que as distribuições candidatas vêm de alguma classe parametrizada de distribuições.
Por exemplo, se você quiser assumir que os dados são gaussianos distribuídos com média desconhecida, mas variação conhecida, tudo o que você precisa é de um anterior sobre a média.
Estimativa MAP do parâmetro desconhecido (chame-oθ ) could proceed by assuming that all the observations / data points are conditionally independent given the unknown parameter. Then, the MAP estimate is
where
It should be noted that there are particular combinations of the prior probabilityPr[θ] and the candidate distributions Pr[x|θ] that give rise to easy (closed form) updates as more data points are received.
fonte
For density estimation purposes what you need is not
The formula in notesθn+1|θ1,…,θn reffers to the predictive distribution of the Dirichlet process.
For density estimation you actually have to sample from the predictive distribution
Sampling from the above distribution can be done either with conditional methods either with marginal methods. For the conditional methods, take a look at the paper of Stephen Walker [1]. For marginal methods you should check at Radford Neal paper [2].
For the concnetration parameterα Mike West [3] proposes a method for inference in the MCMC procedure including a full conditional distribution for α . If you decide not to update the concentration α in the MCMC procedure, you should keep in mind that if you choose a large value for it, then the number of distinct values drawn from the Dirichlet process will be larger than the number of distinct values when a small number for α will be used.
[1] S.G., Walker (2006). Sampling the Dirichlet Mixture model with slices. Communications in Statitics (Simulation and Computation).
[2] R.M., Neal (2000) Markov Chain Monte Carlo methods for Dirichlet Process Mixture models. Journal of Computational and Graphical Statistics. Vol 9, No 2, pp 249-265
[3] M., West (1992). Hyperparameter estimation in Dirichlet process mixture models. Technical report
fonte
There is something precisely for that. It's pretty much the main idea of Bayesian inference.
Thep(θ) is your prior, what you call F . The p(y|θ) is what Bayesians call the "likelihood" and it is the probability of observing your data given some value of theta. You just multiply them together and get what's called a "posterior" distribution of θ . This is your "updated F". Check out chapter 1 of any Intro to Bayesian Stats book.
You don't have to get rid ofp(θ) (your prior), you just have to realize that it's not your best guess anymore, now that you have data to refine it.
fonte