Distribuições anteriores pouco informativas para parâmetros de escala

21

Eu tenho usado distribuições normais de log como distribuições anteriores para parâmetros de escala (para distribuições normais, t distribuições etc.) quando tenho uma idéia aproximada sobre qual deve ser a escala, mas quero errar ao dizer que não sei muito sobre isso. Eu o uso porque esse uso faz sentido intuitivo para mim, mas não vi outras pessoas usá-lo. Existem perigos ocultos para isso?

John Salvatier
fonte
1
Os normais têm antecedentes conjugados: en.wikipedia.org/wiki/Normal-gamma_distribution . Você pode achar isso muito mais fácil de usar.
whuber
Interessante. Eu estou fazendo coisas numéricas, existe alguma vantagem nessas distribuições além da congugalidade?
John Salvatier
5
Não é realmente a minha área, mas isso pode ser relevante? Gelman A. Distribuições anteriores para parâmetros de variância em modelos hierárquicos. Análise Bayesiana 2006; 1: 515-533. Dx.doi.org/10.1214/06-BA117A
onestop
Encontrei essa distribuição Scaled-Beta proposta por Pérez e Pericchi. 2
Priores conjugados para uma distribuição específica como a normal são apenas anteriores que levam a essa distribuição como uma distribuição posterior, dado um conjunto de dados. Se você usa um conjugado antes, não precisa se preocupar em fazer a integração para calcular o posterior. Isso torna as coisas convenientes, mas atualmente o MCMC facilita muito o uso de uma ampla variedade de possíveis anteriores.
Michael R. Chernick

Respostas:

20

Eu recomendaria o uso de uma "distribuição Beta do segundo tipo" (Beta 2 para abreviar) para uma distribuição pouco informativa e o uso da distribuição gama inversa conjugada, se você tiver fortes crenças anteriores. A razão pela qual digo isso é que o prior a conjugado não é robusto, no sentido de que, se o prior e os dados entrarem em conflito, o prior terá uma influência ilimitada na distribuição posterior. Esse comportamento é o que eu chamaria de "dogmático", e não justificado por informações prévias leves .

A propriedade que determina a robustez é o comportamento da cauda do anterior e da probabilidade. Um artigo muito bom descrevendo os detalhes técnicos está aqui . Por exemplo, uma probabilidade pode ser escolhida (digamos, uma distribuição t) de modo que, como uma observação (ou seja, se torne arbitrariamente grande), ela seja descartada da análise de um parâmetro de localização (da mesma maneira que você faria intuitivamente fazer com essa observação). A taxa de "descarte" depende de quão pesadas são as caudas da distribuição.yi

Alguns slides que mostram um aplicativo no contexto de modelagem hierárquica podem ser encontrados aqui (mostra a forma matemática da distribuição Beta 2 ), com um documento aqui .

Se você não está no contexto de modelagem hierárquica, sugiro comparar o posterior (ou quaisquer resultados que você esteja criando), mas use o Jeffreys anterior para um parâmetro de escala, que é dado por . Isso pode ser criado como um limite da densidade Beta 2, pois ambos os parâmetros convergem para zero. Para uma aproximação, você pode usar valores pequenos. Mas eu tentaria elaborar a solução analiticamente, se possível (e, se não for uma solução analítica completa, faça com que a solução analítica progrida o máximo possível), porque você não economizará apenas algum tempo computacional, mas estará também provavelmente entenderá melhor o que está acontecendo no seu modelo.p(σ)1σ

Uma alternativa adicional é especificar suas informações anteriores na forma de restrições (média igual a , variação igual a , IQR igual a , etc. com os valores de especificados por você) e, em seguida, usar o distribuição máxima de entropia (procure em qualquer obra de Edwin Jaynes ou Larry Bretthorst uma boa explicação sobre o que é Máxima Entropia e o que não é) com relação à "medida invariável" de Jeffreys . V I Q R M , V , I Q R m ( σ ) = 1MVIQRM,V,IQRm(σ)=1σ

MaxEnt é a versão "Rolls Royce", enquanto o Beta 2 é mais uma versão "sedan". A razão para isso é que a distribuição MaxEnt "assume o mínimo", sujeita às restrições que você colocou nela (por exemplo, nenhuma restrição significa que você acabou de obter o Jeffreys antes), enquanto a distribuição Beta 2 pode conter alguns recursos "ocultos" que pode ou não ser desejável no seu caso específico (por exemplo, se as informações anteriores forem mais confiáveis que os dados, o Beta 2 será ruim).

A outra boa propriedade da distribuição MaxEnt é que, se não houver restrições não especificadas operando no mecanismo de geração de dados , a distribuição MaxEnt é predominantemente a distribuição mais provável que você verá (estamos falando de probabilidades de bilhões e trilhões para um). Portanto, se a distribuição que você vê não for a MaxEnt, provavelmente haverá restrições adicionais que você não especificou que operam no processo verdadeiro, e os valores observados podem fornecer uma pista sobre qual pode ser essa restrição.

probabilityislogic
fonte
@probabilityislogic Ótima resposta. Você sabe onde posso encontrar os documentos mencionados no terceiro parágrafo? Os links não estão funcionando.
1
aquele que trabalha para o jornal está aqui . Estava no site da conferência "objetivo bayes 09" (as reuniões de Valência). Acho que os slides não estarão mais disponíveis, já que o site da conferência foi retirado ... :( pena, foi um bom conjunto de slides. Esse horshoe anterior parece interessante no link que você forneceu.
probabilityislogic
Betuma2
@ Procrastinator Estou certo ao supor que você deseja apenas priores apropriados? Você não disse isso, mas se você permitir priorais impróprios, os já mencionados Jeffreys trabalhariam e eu poderia citar a teoria da probabilidade de Jeffreys, livros de Dennis Lindley ou enciclopédia estatística. A maneira como o pedido pode ser verificado usando o Google para encontrar a resposta e, se não puder ser encontrado, provavelmente não há nada na literatura além daqueles que você excluiu.
Michael R. Chernick 12/12/12
@MichaelChernick Sim, você está certo, estou interessado apenas em priores. A razão para isso é que, para os priores adequados (1) a existência do posterior não é restritiva a certos modelos e (2) eu queria verificar se não estou perdendo outra proposta interessante. Concordo com você que parece que os anteriores de Gelman, Pericchi e Gamma são os mais populares na literatura, mas também observei que há uma tendência em propor anteriores de cauda pesada para produzir inferências 'robustas'.
13

O artigo a seguir de Daniels compara uma variedade de antecedentes de retração para a variação. Estes são antecedentes adequados, mas não tenho certeza de quantos poderiam ser chamados de não informativos, se houver. Mas ele também fornece uma lista de antecedentes não informativos (nem todos apropriados). Abaixo está a referência.

MJ Daniels (1999), A anterior para a variação em modelos hierárquicos , Canadian J. Stat. vol. 27, n. 3, pp. 567-578.

Priores

  1. K
  2. τ-2
  3. τ-1
  4. 1/(σ2+τ2)
  5. σ/(2(σ2+τ2)3/2)
  6. σ2/(σ2+τ2)
  7. σ/(2τ(σ+τ)2)

Outro artigo mais recente em uma veia relacionada é o seguinte.

A. Gelman (2006), distribuições anteriores para parâmetros de variância em modelos hierárquicos , Bayesian Analysis , vol. 1, n. 3, pp. 515-533.

Michael R. Chernick
fonte
2
(+1) Esta é uma boa descoberta. Adicionei um link estável ao artigo de Daniels, além de outra referência que parece complementá-lo.
cardeal
4

(A questão é obsoleta, mas o problema não é)

Pessoalmente, acho que sua intuição faz algum sentido. Ou seja, se você não precisar da ordem matemática da conjugação, seja qual for a distribuição que você usaria para um parâmetro de localização, use a mesma para o log de um parâmetro de escala. Então, o que você está dizendo é: use o equivalente a um anterior normal.

Você realmente usaria um anterior normal para um parâmetro de localização? A maioria das pessoas diria que, a menos que você faça a variação enorme, isso provavelmente é "dogmático demais", por razões explicadas nas outras respostas aqui (influência ilimitada). Uma exceção seria se você estiver fazendo bayes empíricos; isto é, usando seus dados para estimar os parâmetros do seu anterior.

Se você quer ser "pouco informativo", provavelmente escolheria uma distribuição com caudas mais gordas; os candidatos óbvios são t distribuições. O conselho mais recente de Gelman parece ser o de usar com df de 3-7. (Observe que o link também suporta minha sugestão de que você queira fazer o mesmo para o log de escala que você faria para o local). Portanto, em vez de um lognormal, você pode usar um log-student-t. Para fazer isso em stan, você pode fazer algo como:

real log_sigma_y; //declare at the top of your model block
//...some more code for your model
log_sigma_y <- log(sigma_y); increment_log_prob(-log_sigma_y);
log_sigma_y ~ student_t(3,1,3); //This is a 'weakly informative prior'.

No entanto, acho que, se o código acima for muito complexo para você, você provavelmente poderá obter um lognormal anterior, com duas advertências. Primeiro, faça a variação disso antes algumas vezes maior do que você imagina como "não tem certeza"; você quer um anterior pouco informativo, não muito informativo. E segundo, depois de ajustar seu modelo, verifique a mediana posterior do parâmetro e verifique se o log não está muito longe do centro do lognormal. "Não longe demais" provavelmente significa: menos de dois desvios-padrão e, de preferência, não muito mais que um DP.

Jameson Quinn
fonte
2

Para parâmetros de escala de modelo hierárquico, acabei usando a sugestão de Andrew Gelman de usar uma distribuição t dobrada e não central. Isso funcionou bastante decentemente para mim.

John Salvatier
fonte