Amostragem de uma distribuição inadequada (usando o MCMC e outros)

15

Minha pergunta básica é: como você extrairia uma distribuição inadequada? Faz mesmo sentido colher amostras de uma distribuição imprópria?

O comentário de Xi'an aqui aborda a questão, mas eu estava procurando mais alguns detalhes sobre isso.

Mais específico para o MCMC:

Ao falar sobre o MCMC e ler artigos, os autores enfatizam ter obtido distribuições posteriores apropriadas. Existe o famoso artigo de Geyer (1992) onde o autor esqueceu de verificar se o posterior era adequado (caso contrário, um excelente artigo).

Mas, suponha que a tenha uma probabilidade e uma distribuição anterior inadequada em θ, de modo que o posterior resultante também seja inadequado, e o MCMC seja usado para amostrar a partir da distribuição. Nesse caso, o que a amostra indica? Existe alguma informação útil neste exemplo? Estou ciente de que a cadeia de Markov aqui é transitória ou nula-recorrente. Existem sugestões positivas se for nulo-recorrente ?f(x|θ)θ

Finalmente, na resposta de Neil G aqui , ele mencionou

você pode tipicamente provar (usando o MCMC) a partir da parte posterior, mesmo que seja impróprio.

Ele menciona que essa amostragem é comum no aprendizado profundo. Se isso é verdade, como isso faz sentido?

Greenparker
fonte
11
Este jstor.org/stable/pdf/2246228.pdf?_=1462943547901 pode ser interessante
peuhp
Definitivamente útil. O que entendo no artigo é que, se os funcionais a serem avaliados a partir das amostras são integráveis, a amostragem de um posterior impróprio faz sentido. Minha interpretação está correta?
Greenparker
3
Sim. Considere um caso trivial de um posterior inadequado, onde a impropriedade é devida a caudas gordas, e uma função que é igual a zero fora de e tem todas as boas propriedades de integrabilidade acima de [ 0 , 1 ] . O fato de o posterior ser impróprio é irrelevante, pois a única parte do posterior que importa é a parte acima [ 0 , 1 ] . [0 0,1 1][0 0,1 1][0 0,1 1]
21132 jbowman

Respostas:

10

A amostragem de um posterior inadequado (densidade) não faz sentido do ponto de vista probabilístico / teórico. A razão para isso é que a função f não possui uma integral finita sobre o espaço do parâmetro e, consequentemente, não pode ser vinculada a um modelo de probabilidade ( medida finita) ( Ω , σ , P ) (espaço, álgebra sigma, medida de probabilidade )ff(Ω,σ,P)

Se você tem um modelo com um anterior inadequado que leva a um posterior inadequado, em muitos casos você ainda pode fazer uma amostra usando o MCMC, por exemplo, Metropolis-Hastings, e as "amostras posteriores" podem parecer razoáveis. Isso parece intrigante e paradoxal à primeira vista. No entanto, a razão para isso é que os métodos MCMC estão restritos a limitações numéricas dos computadores na prática e, portanto, todos os suportes são limitados (e discretos!) Para um computador. Então, sob essas restrições (limites e discrição), o posterior é realmente adequado na maioria dos casos.

Existe uma grande referência de Hobert e Casella que apresenta um exemplo (de natureza ligeiramente diferente) em que você pode construir um amostrador de Gibbs para um posterior, o posterior parece perfeitamente razoável, mas o posterior é impróprio!

http://www.jstor.org/stable/2291572

Um exemplo semelhante apareceu recentemente aqui . De fato, Hobert e Casella alertam o leitor que os métodos MCMC não podem ser usados ​​para detectar impropriedades posteriores e que isso deve ser verificado separadamente antes de implementar qualquer método MCMC. Em suma:

  1. Alguns amostradores do MCMC, como Metropolis-Hastings, podem (mas não devem) ser usados ​​para amostrar de um posterior inadequado, uma vez que o computador limita e reduz o espaço dos parâmetros. Somente se você tiver amostras enormes , poderá observar algumas coisas estranhas. A capacidade de detectar esses problemas também depende da distribuição "instrumental" empregada no seu amostrador. O último ponto requer uma discussão mais extensa, então prefiro deixá-lo aqui.
  2. (Hobert e Casella). O fato de você poder construir um amostrador de Gibbs (modelo condicional) para um modelo com um anterior inadequado não implica que o posterior (modelo conjunto) seja adequado.
  3. Uma interpretação probabilística formal das amostras posteriores requer a propriedade das posteriores. Os resultados e as provas de convergência são estabelecidos apenas para distribuições / medidas de probabilidade adequadas.

PS (um pouco na língua): nem sempre acredite no que as pessoas fazem no Machine Learning. Como o professor Brian Ripley disse: "o aprendizado de máquina é estatística menos qualquer verificação de modelos e suposições".

Cajado
fonte
(+1) Ótima resposta e concorda com a maior parte do que eu estava pensando. Vou ler a referência Hobert + Casella. Você saberia que algo melhor pode acontecer se a cadeia de Markov for nula recorrente? Além disso, concorde com a observação do PS.
Greenparker
@Greenparker As cadeias de Markov recorrentes nulas não têm distribuição estacionária. Então, eles são inúteis no contexto do MCMC (onde você constrói cadeias de Markov com distribuição estacionária igual à distribuição de destino). Veja, por exemplo, aqui e aqui .
Rod
5

Oferecendo uma visão alternativa e mais aplicada da excelente resposta de Rod acima -

+/-10100

1 1/xanterior - uso para cálculo, que não tem um limite superior, e o "recurso extra" dele, onde é igual a zero acima da população de São Francisco ... ", com o" recurso extra "sendo aplicado em uma etapa subsequente à geração da amostra.O real anterior não é o que é usado na computação do MCMC (no meu exemplo).

Portanto, em princípio, eu ficaria bem em usar uma amostra gerada pelo MCMC a partir de uma distribuição imprópria no trabalho aplicado, mas prestaria muita atenção em como essa impropriedade surgiu e em como a amostra aleatória será afetada por ela . Idealmente, a amostra aleatória não seria afetada por ela, como no meu exemplo de cachorro-quente, onde em um mundo razoável você nunca geraria um número aleatório maior que o número de pessoas em São Francisco ...

Você também deve estar ciente do fato de que seus resultados podem ser bastante sensíveis ao recurso do posterior que o causou inadequado, mesmo se você o truncar em um grande número posteriormente (ou qualquer alteração apropriada para o seu modelo. ) Você gostaria que seus resultados fossem robustos a pequenas alterações que mudam sua parte posterior de imprópria para adequada. Isso pode ser mais difícil de garantir, mas isso faz parte do problema maior de garantir que seus resultados sejam robustos às suas suposições, especialmente as que são feitas por conveniência.

jbowman
fonte
+1, tática interessante. Você também pode fornecer o truncamento como seu real anterior. Eu imagino que, ao fazer o mcmc, isso pode não banjax muitos dos seus cálculos e evitaria a necessidade de discutir o uso de uma aproximação.
conjecturas
@conjectures - certamente, neste caso! Este foi apenas um exemplo simples, destinado a ilustrar o ponto em que: a) pode haver uma diferença entre o prior usado no cálculo do MCMC e o anterior real; b) a diferença pode ser resolvida pelo pós-processamento da amostra do MCMC (para um grau razoável de "resolução"), e c) a impropriedade dos resultados do anterior usado no cálculo do MCMC não implica impropriedade dos resultados após a conclusão do pós-processamento.
23416 jbowman