Como escolher a priori na estimativa de parâmetros bayesianos

16

Eu conheço três métodos para fazer estimativa de parâmetros, ML, MAP e Bayes. E para a abordagem MAP e Bayes, precisamos escolher os anteriores para os parâmetros, certo?

Digamos que eu tenho esse modelo , no qual são parâmetros, para fazer a estimativa usando MAP ou Bayes, li no livro que é melhor escolhermos um conjugado antes de , que é ump(x|α,β)α,βp(α,β) probabilidade conjunta de , certo?α,β

Eu tenho 2 perguntas:

  1. Temos outras opções escolhendo a anterior que não a conjugada?

  2. Podemos escolher anteriores para e β, respectivamente, como p ( α ) e p ( β ) , além de juntá-los em conjunto?αβp(α)p(β)

abacate
fonte
1
Dependendo do software que você vai usar, priores certamente não tem que ser conjugado com a função de verossimilhança ... em primeiro lugar, você deve se certificar de que seus priores representam suas crenças anteriores sobre a distribuição dos parâmetros
Patrick Coulombe
Então, eu poderia simplesmente escolher os anteriores respectivamente para os parâmetros, certo? Na verdade, eu apenas tentar entender regressão linear baysian, nenhum software específico considerado
abacate
1
Procure elicitações anteriores , por exemplo, aqui
Scortchi - Reinstate Monica

Respostas:

17

Como afirmado no comentário, a distribuição anterior representa crenças anteriores sobre a distribuição dos parâmetros.

Quando crenças anteriores estão realmente disponíveis, você pode:

  • converta-os em termos de momentos (por exemplo, média e variância) para ajustar uma distribuição comum a esses momentos (por exemplo, Gaussian se seu parâmetro estiver na linha real, Gamma se estiver em ).R+
  • use seu entendimento intuitivo dessas crenças para propor uma determinada distribuição prévia e verifique se ela realmente se encaixa no seu objetivo e se não é sensível a escolhas arbitrárias (executando uma análise de robustez ou sensibilidade)

Quando não há crenças anteriores explícitas, você pode:

  • derivar (ou simplesmente usar se já estiver disponível, um ótimo recurso é http://www.stats.org.uk/priors/noninformative/YangBerger1998.pdf ) um Jeffreys (por exemplo, uniforme para um parâmetro de localização) ou uma referência anterior (especialmente em caso de parâmetros multivariados).
  • Às vezes, tais escolhas são impossíveis ou bastante difíceis de derivar e, nesse caso, você pode tentar escolher entre um dos muitos "genéricos" pouco informativos anteriores (por exemplo, distribuição uniforme de retração para parâmetros de escala do modelo hierárquico ou prior para regressão gaussiana) .g

Dito isto, não há restrições para usar uma junta ou um anterior independente ( Vs p ( a ) p ( b ) ). Como complemento, eu diria que, na minha humilde opinião, há três coisas importantes a serem tomadas ao escolher uma prévia:p(uma,b)p(uma)p(b)

  • certifique-se de que seu posterior seja integrável quase em qualquer lugar (ou adequado), o que sempre é verdadeiro se você usar um anterior integrável (consulte O posterior bayesiano precisa ser uma distribuição adequada? para obter mais detalhes),
  • limite o suporte do seu prior somente se você estiver altamente confiante nos limites do suporte (evite fazê-lo).
  • e por último, mas não menos importante, certifique-se (na maioria das vezes experimentalmente) de que sua escolha do anterior significa o que você deseja expressar. Na minha opinião, essa tarefa às vezes é mais crítica. Nunca se esqueça de que, ao fazer inferência, um prioritário não significa nada por si só, você deve considerar o posterior (que é a combinação de prioritário e provável).
peuhp
fonte
Muito obrigado, você poderia me recomendar algumas dicas de como fazer esse tipo de inferência bayesiana?
Avocado #
@loganecolss De nada, eu estava pessoalmente um pouco perdido há alguns meses e este post é simplesmente o resumo do meu auto-estudo e estou feliz se isso puder ajudar outra pessoa. Com relação à sua pergunta, o que você quer dizer com "esse tipo de inferência bayesiana"?
Peuhp 5/12
1
Também sou autodidata em aprendizado de máquina, sabia ML, mas essa abordagem bayesiana de estimativa de parâmetros é nova para mim, espero que você possa me mostrar algum material para aprender estimativa e inferência bayesiana ;-)
avocado
1
@loganecolss, Este é um bom resumo da inferência MLE, MAP e Bayesiana. E este link fornece um bom resumo de como incorporar uma inferência bayesiana anterior para uma distribuição binomial.
Zhubarb
Uma elaboração menor: um prior adequado representa um conjunto consistente de crenças sobre os parâmetros. Eles não precisam ser suas crenças. De fato, os modelos costumam ser mais persuasivos quando são de outras pessoas.
conjugateprior
1

Há também Bayes empíricos. A ideia é ajustar o anterior aos dados:

maxp(z)p(D|z)p(z)dz

Embora isso possa parecer estranho no começo, na verdade existem relações com o tamanho mínimo da descrição. Essa também é a maneira típica de estimar os parâmetros do kernel dos processos gaussianos.

bayerj
fonte
0

Para responder diretamente às duas perguntas acima:

  1. Você tem outras opções para escolher anteriores não conjugados que não sejam anteriores conjugados. O problema é que, se você escolher anteriores não conjugados, não poderá fazer inferência bayesiana exata (em outras palavras, não poderá derivar uma posterior mais próxima). Em vez disso, você precisa fazer uma inferência aproximada ou usar métodos de amostragem como Gibbs, Rejection, MCMC, etc. para derivá-lo posteriormente. O problema com os métodos de amostragem é que, intuitivamente, é como desenhar uma imagem do elefante na escuridão tocando repetidamente ---- você pode ser tendencioso e incompleto. A razão pela qual as pessoas escolhem o não conjugado anterior é que, com certa probabilidade, a opção do conjugado anterior é bastante limitada ou, para dizer, a maioria é não conjugada.

  2. Sim, você definitivamente pode. Se α e β são independentes, que é a condição idealista, você pode derivar sua distribuição conjunta por p (α) p (β). Se eles não forem independentes, pode ser necessário descobrir a probabilidade condicional e fazer parte integrante para derivar a distribuição conjunta.

talento
fonte