Os parâmetros de máxima verossimilhança divergem das distribuições posteriores

11

Eu tenho uma função probabilidade para a probabilidade dos meus dados dado alguns parâmetros do modelo , o que eu gostaria de estimar. Assumindo anteriores planos nos parâmetros, a probabilidade é proporcional à probabilidade posterior. Eu uso um método MCMC para provar essa probabilidade.eu(d|θ)dθRN

Olhando para a cadeia convergente resultante, acho que os parâmetros de probabilidade máxima não são consistentes com as distribuições posteriores. Por exemplo, a distribuição de probabilidade posterior marginalizada para um dos parâmetros pode ser , enquanto o valor de no ponto de probabilidade máximo é , essencialmente sendo quase o valor máximo de percorrido pelo amostrador MCMC.θ0 0N(μ=0 0,σ2=1)θ0 0θ0 0Meu4θ0 0

Este é um exemplo ilustrativo, não meus resultados reais. As distribuições reais são muito mais complicadas, mas alguns dos parâmetros de ML têm valores de p igualmente improváveis ​​em suas respectivas distribuições posteriores. Observe que alguns dos meus parâmetros são limitados (por exemplo, ); dentro dos limites, os anteriores são sempre uniformes.0 0θ11

Minhas perguntas são:

  1. Esse desvio é um problema per se ? Obviamente, não espero que os parâmetros de ML coincidam exatamente com os máximos de cada uma de suas distribuições posteriores marginalizadas, mas intuitivamente parece que eles também não devem ser encontrados profundamente nas caudas. Esse desvio invalida automaticamente meus resultados?

  2. Se isso é necessariamente problemático ou não, poderia ser sintomático de patologias específicas em algum estágio da análise dos dados? Por exemplo, é possível fazer uma declaração geral sobre se esse desvio pode ser induzido por uma cadeia incorretamente convergida, um modelo incorreto ou limites excessivamente rígidos nos parâmetros?

mgc70
fonte

Respostas:

15

Nos anteriores planos, o posterior é idêntico à probabilidade até uma constante. portanto

  1. O LEM (estimado com um otimizador) deve ser idêntico ao MAP (valor máximo a posteriori = modo multivariado do posterior, estimado com MCMC). Se você não obtiver o mesmo valor, terá um problema com seu amostrador ou otimizador.

  2. Para modelos complexos, é muito comum que os modos marginais sejam diferentes do MAP. Isso acontece, por exemplo, se as correlações entre parâmetros não são lineares. Isso é perfeitamente correto, mas os modos marginais não devem, portanto, ser interpretados como os pontos de maior densidade posterior, e não devem ser comparados ao MLE.

  3. No seu caso específico, no entanto, suspeito que o posterior corre contra o limite anterior. Nesse caso, o posterior será fortemente assimétrico e não faz sentido interpretá-lo em termos de média, sd. Não existe um problema de princípio com essa situação, mas, na prática, geralmente sugere sugestões de erros de especificação do modelo ou de priores mal escolhidos.

Florian Hartig
fonte
15

Algumas explicações genéricas possíveis para essa discrepância percebida, supondo que não haja problema com a definição de código ou probabilidade ou a implementação do MCMC ou o número de iterações do MCMC ou a convergência do maximizador de probabilidade (obrigado, Jacob Socolar ):

  1. em grandes dimensões , a parte posterior não se concentra no máximo, mas algo a uma distância da ordem do modo, significando que os maiores valores da função de probabilidade encontrados por um amostrador MCMC geralmente estão bem abaixo do valor de a probabilidade no máximo. Por exemplo, se o posterior for , estará pelo menos a uma distância do modo .NNθ|xNN(0 0,EuN)θN-22N0 0

  2. Embora o MAP e o MLE sejam realmente confundidos sob um plano anterior, as densidades marginais dos diferentes parâmetros do modelo podem ter modos (marginais) que estão distantes dos MLEs correspondentes (isto é, MAPs).

  3. O MAP é uma posição no espaço de parâmetros em que a densidade posterior é mais alta, mas isso não transmite nenhuma indicação de peso ou volume posterior para as vizinhanças do MAP. Um pico muito fino não carrega peso posterior. Essa também é a razão pela qual a exploração de um posterior pelo MCMC pode enfrentar dificuldades na identificação do modo posterior.

  4. O fato de a maioria dos parâmetros estar delimitada pode levar à ocorrência de alguns componentes do MAP = MLE em um limite.

Veja, por exemplo, Druihlet e Marin (2007) os argumentos sobre a natureza não Bayesiana dos estimadores de PAM. Uma é a dependência desses estimadores da medida dominante, outra é a falta de invariância sob reparameterização (diferentemente das MLE).

Como exemplo do ponto 1 acima, aqui está um código R curto

N=100
T=1e4
lik=dis=rep(0,T)
mu=rmvnorm(1,mean=rep(0,N))
xobs=rmvnorm(1,mean=rep(0,N))
lik[1]=dmvnorm(xobs,mu,log=TRUE)
dis[1]=(xobs-mu)%*%t(xobs-mu)
for (t in 2:T){
  prop=rmvnorm(1,mean=mu,sigma=diag(1/N,N))
  proike=dmvnorm(xobs,prop,log=TRUE)
  if (log(runif(1))<proike-lik[t-1]){
    mu=prop;lik[t]=proike
     }else{lik[t]=lik[t-1]}
    dis[t]=(xobs-mu)%*%t(xobs-mu)}

que imita uma sequência Metropolis-Hastings de passeio aleatório na dimensão N = 100. O valor da probabilidade de log no MAP é -91,89, mas as probabilidades visitadas nunca chegam perto:

> range(lik)
[1] -183.9515 -126.6924

o que é explicado pelo fato de que a sequência nunca chega perto da observação:

> range(dis)
[1]  69.59714 184.11525
Xi'an
fonte
3
Eu acrescentaria que, além de se preocupar com a definição de código ou de probabilidade ou a implementação do MCMC, o OP também pode se preocupar se o software usado para obter a estimativa de ML ficou preso em um local ideal. stats.stackexchange.com/questions/384528/…
Jacob Socolar 05/04