Cadeia de Markov Monte Carlo (MCMC) para estimativa de máxima verossimilhança (MLE)

Estou lendo um artigo da conferência de 1991 de Geyer, que está relacionado abaixo. Nele, ele parece iludir-se com um método que pode usar o MCMC para estimativa de parâmetros MLE

Isso me excita desde então, codifiquei algoritmos BFGS, GAs e todos esses tipos de métodos horríveis e de sorte para encontrar mínimos globais necessários para extrair a estimativa de parâmetros dos MLEs.

A razão pela qual me empolga é que, se podemos garantir a convergência do MCMC para um ponto fixo (por exemplo, um critério suficiente satisfaria o equilíbrio detalhado ), podemos obter parâmetros sem minimizar um MLE.

Conclui-se, portanto, que isso fornece um método genérico para obter os mínimos globais, restrições de módulo impostas acima e no trabalho. Existem vários algoritmos para o MCMC, por exemplo, o HMC, que são bem mapeados para problemas de alta dimensão do MCMC e eu suponho que eles superariam os métodos tradicionais de descida de gradiente.

Questão

Estou correto que este documento fornece uma base teórica para o uso do MCMC para obter estimativas de parâmetros dos MLEs?
Pode-se usar um algoritmo MCMC em determinadas circunstâncias, conforme descrito no documento, para extrair parâmetros do MLE ignorando as necessidades de métodos como Algoritmos Genéticos e BFGS etc.

Papel

Geyer, CJ (1991). Cadeia de Markov Monte Carlo máxima verossimilhança . Ciência da Computação e Estatística: Proc. 23º Symp. Interface, 156-163.

Resumo

A cadeia de Markov Monte Carlo (por exemplo, o algoritmo Metropolis e o amostrador de Gibbs) é uma ferramenta geral para simulação de processos estocásticos complexos úteis em muitos tipos de inferência estatística. Os princípios básicos da cadeia de Markov Monte Carlo são revisados, incluindo a escolha de algoritmos e estimativa de variância, e alguns novos métodos são introduzidos. O uso da cadeia de Markov Monte Carlo para estimativa de máxima verossimilhança é explicado e seu desempenho é comparado com a estimativa de máxima verossimilhança.

Nota: As seções 1 a 6 são chatas e você provavelmente já as conhece se chegou até aqui. Na seção 7, ele aborda o interessante, mas o que ele chama de "máxima verossimilhança de Monte Carlo"

Mais recursos

control + f para "Geyer"

maximum-likelihood mcmc gradient-descent minimum Alexander McFarlane
fonte

Para sua referência, o Rpacote glmm aqui usa Monte Carlo para aproximar a probabilidade nos GLMMs. O pacote é escrito pelo aluno de Geyer. Além disso, o pacote 'R' 'mcemGLM' estima aqui o MLE para GLMMs usando o Monte Carlo EM. O pacote é escrito por um aluno do mesmo departamento que Geyer.

26516 Greenparker

Isso é muito promissor. Eu sempre senti que essa área de estatística era péssima. Quero dizer que parece tão para trás que algumas das mentes mais brilhantes do mundo estão caindo lemmings imaginárias para caminhada de vários mínimos (ou seja Monte Carlo AGs) para resolver esses problemas

Alexander McFarlane

Este artigo de Booth e Hobert é considerado seminal em campo. Veja também isso . Não está diretamente relacionado à sua pergunta, mas continua no mesmo bairro.

Greenparker

Só por curiosidade, se seu objetivo é otimizar uma função, por que você não procura métodos modernos para otimização estocástica não-convexa global, em oposição a um artigo do MCMC de 1991?

lacerbi

@acerbbi porque sou pós-graduado em física teórica e nem sabia que existia todo o campo (obrigado!) e, em segundo lugar, porque meu problema em questão exigia adaptação à distribuição. Eu sei MCMC muito bem e sei MLE muito bem e eu só tinha a sensação de que poderia ter um crossover que poderia ser útil, portanto, o papel que eu descobri

Alexander McFarlane

Respostas:

Se bem entendi, você está entusiasmado com o MCMC no caso de funções de destino multimodais. Seu raciocínio é que os métodos do MCMC pesquisam o espaço global dos parâmetros, em vez de apenas disparar no modo mais próximo e parar.

Embora teoricamente verdadeiro, na prática, o MCMC geralmente se comporta de maneira semelhante aos métodos de escalada: uma vez que eles encontram um modo local, eles geralmente permanecem nesse modo. Ao contrário dos métodos de escalada, há uma probabilidade positiva de que eles deixem o modo, portanto, teoricamente, ele explorará o espaço global se for executado por tempo suficiente. No entanto, para a maioria dos amostradores, essa probabilidade é tão pequena que não é razoável operar a cadeia por tempo suficiente para ter certeza de que o amostrador explorará adequadamente o espaço global.

Obviamente, existem samplers que tentam remediar isso, tentando executar etapas outlier ocasionais (ou seja, ver se ele pode escapar do modo local). Mas eu não acho que esses amostradores sejam competitivos em relação à otimização, com métodos de otimização padrão para explorar superfícies multimodais (por exemplo, enxame de partículas, etc.).

Cliff AB
fonte

Embora escapando dos mínimos locais, há uma família de rotinas do MCMC (por exemplo, isso ) com base nos princípios hamiltonianos (da Física) que parecem razoavelmente competentes na navegação nesses espaços multimodais. Olhando para o seu perfil, aprecie esta é a sua área de pesquisa e, de fato, minha pergunta vem de maneira semelhante às suas "divagações" sociais . Não estou familiarizado com os métodos, mas, como especialista, você acha que o método MCMC descrito acima teria algum mérito?

Alexander McFarlane

@AlexanderMcFarlane: não tenho certeza se me chamaria de "especialista" no MCMC, mas sim ter tido alguma exposição profissional (consulte r-nimble.org, um projeto em que trabalhei por um tempo). Então, siga meu conselho com um grão de sal. Dito isso, eu não usaria métodos genéricos do MCMC, como passeios aleatórios MH, para o que você deseja. Os amostradores que tentam explorar agressivamente os limites do espaço de probabilidade podem ter mais sorte (paywall para o seu link, portanto, nenhum comentário para saber se ele atende aos critérios).

Cliff AB

O MCMC geralmente não converge para um ponto fixo. A convergência é para a distribuição estacionária de uma cadeia de Markov. Os desenhos são diferentes, mas, vagamente, a distribuição da qual eles são desenhados se torna fixa.

Os métodos MCMC geralmente sofrem de problemas semelhantes a outros métodos de otimização. Por exemplo, é fácil projetar cadeias que raramente escapam dos mínimos locais. Existe toda uma literatura de truques para resolver esses problemas em vários modelos.

Dito isto, e em resposta à sua segunda pergunta, eis uma maneira rápida e suja de o MCMC ser usado para estimativa de parâmetros:

Execute a cadeia, gerando amostras de parâmetros.
Obtenha a probabilidade em cada amostra dos parâmetros.
Compare as probabilidades das amostras MCMC com o seu MLE favorito.
Se alguma das amostras do MCMC se sair melhor, não era realmente um MLE global.

conjecturas
fonte