Como o ABC e o MCMC diferem em suas aplicações?

15

No meu entender, a Computação Bayesiana Aproximada (ABC) e Monte Carlo da Cadeia de Markov (MCMC) têm objetivos muito semelhantes. Abaixo, descrevo minha compreensão desses métodos e como percebo as diferenças em sua aplicação aos dados da vida real.

Computação Bayesiana Aproximada

ABC consiste em amostrar um parâmetro de um anterior, por meio de simulação numérica, calcular uma estatística x i que é comparada com alguns x o b s observados . Com base em um algoritmo de rejeição, x i é retido ou rejeitado. A lista de retidos x i s feitos a distribuição a posteriori.θxixobsxixi

Cadeia de Markov Monte Carlo

O MCMC consiste em amostrar uma distribuição anterior do parâmetro . Ele pega uma primeira amostra θ 1 , calcula P ( x o b s | θ 1 ) P ( θ 1 ) e depois pula (de acordo com alguma regra) para um novo valor θ 2 para o qual P ( x o b s | θ 2 ) P ( θ 2 ) é computado novamente. A razão P ( x o b sθθ1P(xobs|θ1)P(θ1)θ2P(xobs|θ2)P(θ2) é calculado e, dependendo de algum valor limite, o próximo salto ocorrerá da primeira ou da segunda posição. A exploração dosvaloresdeθvai um e um e, no final, a distribuição dosvaloresretidos deθé a distribuição posteriorP(θ|x)(por uma razão que ainda me é desconhecida).P(xobs|θ2)P(θ2)P(xobs|θ1)P(θ1)θθP(θ|x)

Percebo que minhas explicações falham em representar a variedade de métodos existentes em cada um desses termos (especialmente no MCMC).

ABC vs MCMC (prós e contras)

ABC tem a vantagem de que não é necessário ser capaz de resolver analiticamente . Como tal, o ABC é conveniente para modelos complexos onde o MCMC não o faria.P(x|θ)P(θ)

O MCMC permite fazer testes estatísticos (teste de razão de verossimilhança, teste G, ...), embora eu não ache isso possível com o ABC.

Estou certo até agora?

Questão

  • Como o ABC e o MCMC diferem em suas aplicações? Como alguém decide fazer uso de um ou outro método?
Remi.b
fonte
11
"O MCMC consiste em amostrar uma distribuição anterior do parâmetro θ." Embora se possa fazer isso com certeza, não é necessário nem desejável na maioria dos casos. Para muitas aplicações do MCMC, nós amostramos θ2 de uma distribuição candidata centrada em torno de θ1 (por exemplo, um gaussiano com um pequeno desvio padrão) e depois calculamos a taxa de aceitação / rejeição, como mencionado acima. Isso contrasta com o ABC, onde coletamos amostras do anterior (e essa é a única maneira de incorporar informações anteriores no ABC, geralmente).
Z_dood 26/05

Respostas:

12

Alguns comentários adicionais sobre a resposta de Björn:

  1. O ABC foi introduzido pela primeira vez por Rubin (1984) como uma explicação da natureza da inferência bayesiana, e não para fins computacionais. Neste artigo, ele explicou como a distribuição amostral e a distribuição anterior interagem para produzir a distribuição posterior.

  2. No entanto, o ABC é explorado principalmente por razões computacionais. Os geneticistas da população inventaram o método em modelos baseados em árvores, onde a probabilidade da amostra observada era intratável. Os esquemas MCMC (Data Augmentation) que estavam disponíveis em tais configurações eram extremamente ineficientes e a amostragem era importante, mesmo com um parâmetro de uma única dimensão ... Em sua essência, o ABC é um substituto dos métodos de Monte Carlo, como o MCMC ou o PMC, quando esses não estão disponíveis para todos os fins práticos. Quando eles estão disponíveis, o ABC aparece como um proxy que pode ser usado para calibrá-los se executar mais rapidamente.

  3. Numa perspectiva mais moderna, eu pessoalmente considero o ABC como um método de inferência aproximada, e não como uma técnica computacional. Ao construir um modelo aproximado, pode-se inferir o parâmetro de interesse sem necessariamente depender de um modelo preciso. Embora seja necessário algum grau de validação nessa configuração, ele não é menos válido do que fazer a média do modelo ou não paramétricos. De fato, o ABC pode ser visto como um tipo especial de estatística bayesiana não paramétrica.

  4. Também pode ser mostrado que o ABC (barulhento) é uma abordagem bayesiana perfeitamente bem definida se alguém substituir o modelo e os dados originais por um barulhento. Como tal, permite todas as inferências bayesianas em que se possa pensar. Incluindo testes. Nossa contribuição para o debate sobre o ABC e o teste de hipóteses é que o modelo aproximado subjacente ao ABC pode terminar como pouco equipado para avaliar a relevância de uma hipótese com base nos dados, mas não necessariamente , o que é tão bom quanto a maioria das aplicações do ABC na população. a genética preocupa-se com a escolha do modelo.

  5. Numa perspectiva ainda mais recente, podemos ver o ABC como uma versão bayesiana da inferência indireta, onde os parâmetros de um modelo estatístico estão relacionados aos momentos de uma estatística pré-determinada. Se essa estatística for suficiente (ou suficiente no sentido vernacular) para identificar esses parâmetros, pode-se mostrar que o ABC converge para o valor real dos parâmetros com o número de observações.

Xi'an
fonte
2
Eu verifiquei esta resposta, mas quero recomendar a leitura da resposta de @ Björn primeiro (+1) e depois a resposta de Xi'an.
Remi.b 26/05
12

A diferença é que, com o ABC, você não precisa de uma expressão analítica para P(x|θ) e, em vez disso, aproximá-lo, simulando dados e ver quais valores de θos dados simulados mais frequentemente (aproximadamente) correspondem aos dados observados (com valores propostos, por exemplo, extraídos aleatoriamente do anterior). Para casos simples, como uma única variável aleatória binomial com um tamanho de amostra não muito grande, você pode até exigir uma correspondência exata e, nesses casos, não há realmente nada que você não possa fazer com essas amostras posteriores que você também não poderia fazer com amostras MCMC padrão. Para situações mais complexas com resultados contínuos (mesmo para resultados discretos multivariados) e potencialmente multivariados que exigem uma correspondência exata, não é mais possível.

De fato, existem versões do MCMC do ABC, que abordam a questão de que, se você tem um prioritário que não se parece muito com o posterior (por exemplo, porque o prioritário é muito pouco informativo), a amostragem do desenho do prioritário é extremamente ineficiente, porque você raramente obtenha uma correspondência próxima entre os dados observados e os simulados.

Quando P(x|θ)está analiticamente disponível, presumo que quase sempre será preferível usar um MCMC padrão. Suponho que seja concebível que, de alguma forma, a avaliação deP(x|θ)é tão incrivelmente caro em termos computacionais que o ABC tem um desempenho melhor. Talvez alguém saiba um exemplo disso. Em contraste, eu consideraria o ABC ou o MCMC-ABC (ou uma das muitas outras variantes do ABC) principalmente quando uma abordagem padrão do MCMC não é uma opção, porqueP(x|θ)não está disponível analiticamente. É claro que pode haver outras opções possíveis nesses casos (por exemplo, INLA, aproximações quadráticas de probabilidades etc.) que podem ser mais eficientes / bem-sucedidas para problemas específicos. De certa forma, quaisquer limitações no que você pode fazer com amostras posteriores do ABC vêm apenas da exigência de uma correspondência aproximada entre os dados reais e os simulados (se você precisar de uma correspondência exata, não haverá problemas). Existem vários bons artigos introdutórios, por exemplo, este artigo de Marin et al. (2012) . Pelo menos um dos co-autores (@ Xi'an) é um colaborador ativo aqui e eu adoraria mencionar seus pensamentos também - acredito que ele possa dizer muito mais sobre o tópico dos testes.

Björn
fonte
Espero conseguir consertar o link agora (agora funciona para mim).
Björn
11
(+1) pontos muito bons!
Xi'an
11
"Quando P (x | θ) está disponível analiticamente, presumo que quase sempre será preferível usar um MCMC padrão". Quase, mas nem sempre. Imagine que um tem um tamanho de amostra muito grande (10 ^ 9) combinado com muitos parâmetros. Torna-se muito caro recalcular a probabilidade de cada conjunto de parâmetros. Com o ABC, existem muitos truques que podemos usar para acelerar isso. Com o MCMC, nem tanto.
Z_dood 26/05
2
@z_dood: quando há muitas observações para realmente calcular a probabilidade, como, por exemplo, quando elas precisam ser armazenadas em computadores diferentes, torna-se discutível que a função de probabilidade não esteja disponível analiticamente.
Xian