Existe uma abordagem bayesiana para estimativa de densidade

22

Estou interessado para estimar a densidade de uma variável aleatória contínua . Uma maneira de fazer isso que aprendi é o uso da Estimativa de Densidade do Kernel.X

Mas agora estou interessado em uma abordagem bayesiana que se segue nas seguintes linhas. Inicialmente, eu acredito que segue uma distribuição F . Eu tomo n leituras de X . Existe alguma abordagem para atualizar FXFnXF base nas minhas novas leituras?

Sei que parece que estou me contradizendo: se acredito apenas em como minha distribuição anterior, nenhum dado deve me convencer do contrário. No entanto, suponha que F seja U n i f [ 0 , 1 ] e meus pontos de dados sejam como ( 0,3 ; 0,5 ; 0,9 ; 1,7 ) . Vendo 1.7 , obviamente não posso me ater ao meu anterior, mas como devo atualizá-lo?FFUnif[0,1](0.3,0.5,0.9,1.7)1.7

Atualização: Com base nas sugestões dos comentários, comecei a analisar o processo Dirichlet. Deixe-me usar as seguintes notações:

GDP(α,H)θi|GGxi|θiN(θi,σ2)

Depois de enquadrar meu problema original nesse idioma, acho que estou interessado no seguinte: . Como se faz isso?θn+1|x1,...,xn

Em este conjunto de notas (página 2), o autor fez um exemplo de θn+1|θ1,...,θn (Esquema de Urna Polya). Não tenho certeza se isso é relevante.

Atualização 2: Eu também gostaria de perguntar (depois de ver as notas): como as pessoas escolhem para o PD? Parece uma escolha aleatória. Além disso, como as pessoas escolhem um H anterior para DP? Devo apenas usar um prior para θ como meu prior para H ?αHθH

renrenthehamster
fonte
2
"Se eu acredito apenas em F como minha distribuição anterior, nenhum dado deve me convencer do contrário." Esta é a antítese da inferência bayesiana, que é mais parecida com a de que você acredita em uma mão e do mundo na outra, e as junta e vê o que sai. Lave, enxágue, repita.
Alexis
Você sabe algo sobre o processo dirichlet?
N
Ignorando seu último parágrafo: existem duas opções comuns para esse problema. Uma é uma mistura finita de normais (você pode escolher quantas normais com base na probabilidade de validação cruzada) ou uma mistura infinita de normais, como sugere @ niandra82. Isso pode ser feito com algo como amostragem de Gibbs ou inferência variacional. Você está familiarizado com algum desses métodos?
Eu também deveria perguntar, como você pretende usar este KDE? O método escolhido e o tamanho (infinito, finito) podem depender do seu objetivo.
Isso soa como um problema de escolha de modelo ou um problema filosófico. Na realidade, a nossa escolha de qual probabilidade de uso na Bayesian inferência impõe crenças anteriores também ...
Zoë Clark

Respostas:

2

Since you want a bayesian approach, you need to assume some prior knowledge about the thing you want to estimate. This will be in the form of a distribution.

Agora, há o problema de que agora é uma distribuição por distribuições. No entanto, isso não é problema se você assumir que as distribuições candidatas vêm de alguma classe parametrizada de distribuições.

Por exemplo, se você quiser assumir que os dados são gaussianos distribuídos com média desconhecida, mas variação conhecida, tudo o que você precisa é de um anterior sobre a média.

Estimativa MAP do parâmetro desconhecido (chame-o θ) could proceed by assuming that all the observations / data points are conditionally independent given the unknown parameter. Then, the MAP estimate is

θ^=argmaxθ(Pr[x1,x2,...,xn,θ]),

where

Pr[x1,x2,...,xn,θ]=Pr[x1,x2,...,xn|θ]Pr[θ]=Pr[θ]i=1nPr[xi|θ].

It should be noted that there are particular combinations of the prior probability Pr[θ] and the candidate distributions Pr[x|θ] that give rise to easy (closed form) updates as more data points are received.

bean
fonte
1

For density estimation purposes what you need is not

θn+1|x1,,xn.

The formula in notes θn+1|θ1,,θn reffers to the predictive distribution of the Dirichlet process.

For density estimation you actually have to sample from the predictive distribution

π(dxn+1|x1,,xn)

Sampling from the above distribution can be done either with conditional methods either with marginal methods. For the conditional methods, take a look at the paper of Stephen Walker [1]. For marginal methods you should check at Radford Neal paper [2].

For the concnetration parameter α Mike West [3] proposes a method for inference in the MCMC procedure including a full conditional distribution for α. If you decide not to update the concentration α in the MCMC procedure, you should keep in mind that if you choose a large value for it, then the number of distinct values drawn from the Dirichlet process will be larger than the number of distinct values when a small number for α will be used.

[1] S.G., Walker (2006). Sampling the Dirichlet Mixture model with slices. Communications in Statitics (Simulation and Computation).

[2] R.M., Neal (2000) Markov Chain Monte Carlo methods for Dirichlet Process Mixture models. Journal of Computational and Graphical Statistics. Vol 9, No 2, pp 249-265

[3] M., West (1992). Hyperparameter estimation in Dirichlet process mixture models. Technical report

Christos
fonte
-1

Is there some approach to update F based on my new readings?

There is something precisely for that. It's pretty much the main idea of Bayesian inference.

p(θ|y)p(y|θ)p(θ)

The p(θ) is your prior, what you call F. The p(y|θ) is what Bayesians call the "likelihood" and it is the probability of observing your data given some value of theta. You just multiply them together and get what's called a "posterior" distribution of θ. This is your "updated F". Check out chapter 1 of any Intro to Bayesian Stats book.

You don't have to get rid of p(θ) (your prior), you just have to realize that it's not your best guess anymore, now that you have data to refine it.

rcorty
fonte
3
This is not answering what the question is asking. OP is asking how one can put a prior on F when X1,,XniidF. Assuming our prior on F puts probability one on distributions with a density, the likelihood is L(F)=i=1NdFdx|x=xi. So we need to construct a prior on the space of distribution functions F which are differentiable (which is infinite dimensional), and OP is asking how to do this.
guy