Estou lendo um artigo da conferência de 1991 de Geyer, que está relacionado abaixo. Nele, ele parece iludir-se com um método que pode usar o MCMC para estimativa de parâmetros MLE
Isso me excita desde então, codifiquei algoritmos BFGS, GAs e todos esses tipos de métodos horríveis e de sorte para encontrar mínimos globais necessários para extrair a estimativa de parâmetros dos MLEs.
A razão pela qual me empolga é que, se podemos garantir a convergência do MCMC para um ponto fixo (por exemplo, um critério suficiente satisfaria o equilíbrio detalhado ), podemos obter parâmetros sem minimizar um MLE.
Conclui-se, portanto, que isso fornece um método genérico para obter os mínimos globais, restrições de módulo impostas acima e no trabalho. Existem vários algoritmos para o MCMC, por exemplo, o HMC, que são bem mapeados para problemas de alta dimensão do MCMC e eu suponho que eles superariam os métodos tradicionais de descida de gradiente.
Questão
Estou correto que este documento fornece uma base teórica para o uso do MCMC para obter estimativas de parâmetros dos MLEs?
Pode-se usar um algoritmo MCMC em determinadas circunstâncias, conforme descrito no documento, para extrair parâmetros do MLE ignorando as necessidades de métodos como Algoritmos Genéticos e BFGS etc.
Papel
Geyer, CJ (1991). Cadeia de Markov Monte Carlo máxima verossimilhança . Ciência da Computação e Estatística: Proc. 23º Symp. Interface, 156-163.
Resumo
A cadeia de Markov Monte Carlo (por exemplo, o algoritmo Metropolis e o amostrador de Gibbs) é uma ferramenta geral para simulação de processos estocásticos complexos úteis em muitos tipos de inferência estatística. Os princípios básicos da cadeia de Markov Monte Carlo são revisados, incluindo a escolha de algoritmos e estimativa de variância, e alguns novos métodos são introduzidos. O uso da cadeia de Markov Monte Carlo para estimativa de máxima verossimilhança é explicado e seu desempenho é comparado com a estimativa de máxima verossimilhança.
Nota: As seções 1 a 6 são chatas e você provavelmente já as conhece se chegou até aqui. Na seção 7, ele aborda o interessante, mas o que ele chama de "máxima verossimilhança de Monte Carlo"
Mais recursos
control + f para "Geyer"
fonte
R
pacoteglmm
aqui usa Monte Carlo para aproximar a probabilidade nos GLMMs. O pacote é escrito pelo aluno de Geyer. Além disso, o pacote 'R' 'mcemGLM' estima aqui o MLE para GLMMs usando o Monte Carlo EM. O pacote é escrito por um aluno do mesmo departamento que Geyer.Respostas:
Se bem entendi, você está entusiasmado com o MCMC no caso de funções de destino multimodais. Seu raciocínio é que os métodos do MCMC pesquisam o espaço global dos parâmetros, em vez de apenas disparar no modo mais próximo e parar.
Embora teoricamente verdadeiro, na prática, o MCMC geralmente se comporta de maneira semelhante aos métodos de escalada: uma vez que eles encontram um modo local, eles geralmente permanecem nesse modo. Ao contrário dos métodos de escalada, há uma probabilidade positiva de que eles deixem o modo, portanto, teoricamente, ele explorará o espaço global se for executado por tempo suficiente. No entanto, para a maioria dos amostradores, essa probabilidade é tão pequena que não é razoável operar a cadeia por tempo suficiente para ter certeza de que o amostrador explorará adequadamente o espaço global.
Obviamente, existem samplers que tentam remediar isso, tentando executar etapas outlier ocasionais (ou seja, ver se ele pode escapar do modo local). Mas eu não acho que esses amostradores sejam competitivos em relação à otimização, com métodos de otimização padrão para explorar superfícies multimodais (por exemplo, enxame de partículas, etc.).
fonte
O MCMC geralmente não converge para um ponto fixo. A convergência é para a distribuição estacionária de uma cadeia de Markov. Os desenhos são diferentes, mas, vagamente, a distribuição da qual eles são desenhados se torna fixa.
Os métodos MCMC geralmente sofrem de problemas semelhantes a outros métodos de otimização. Por exemplo, é fácil projetar cadeias que raramente escapam dos mínimos locais. Existe toda uma literatura de truques para resolver esses problemas em vários modelos.
Dito isto, e em resposta à sua segunda pergunta, eis uma maneira rápida e suja de o MCMC ser usado para estimativa de parâmetros:
fonte