Eu tenho usado distribuições normais de log como distribuições anteriores para parâmetros de escala (para distribuições normais, t distribuições etc.) quando tenho uma idéia aproximada sobre qual deve ser a escala, mas quero errar ao dizer que não sei muito sobre isso. Eu o uso porque esse uso faz sentido intuitivo para mim, mas não vi outras pessoas usá-lo. Existem perigos ocultos para isso?
distributions
bayesian
modeling
prior
maximum-entropy
John Salvatier
fonte
fonte
Respostas:
Eu recomendaria o uso de uma "distribuição Beta do segundo tipo" (Beta 2 para abreviar) para uma distribuição pouco informativa e o uso da distribuição gama inversa conjugada, se você tiver fortes crenças anteriores. A razão pela qual digo isso é que o prior a conjugado não é robusto, no sentido de que, se o prior e os dados entrarem em conflito, o prior terá uma influência ilimitada na distribuição posterior. Esse comportamento é o que eu chamaria de "dogmático", e não justificado por informações prévias leves .
A propriedade que determina a robustez é o comportamento da cauda do anterior e da probabilidade. Um artigo muito bom descrevendo os detalhes técnicos está aqui . Por exemplo, uma probabilidade pode ser escolhida (digamos, uma distribuição t) de modo que, como uma observação (ou seja, se torne arbitrariamente grande), ela seja descartada da análise de um parâmetro de localização (da mesma maneira que você faria intuitivamente fazer com essa observação). A taxa de "descarte" depende de quão pesadas são as caudas da distribuição.yi→∞
Alguns slides que mostram um aplicativo no contexto de modelagem hierárquica podem ser encontrados aqui (mostra a forma matemática da distribuição Beta 2 ), com um documento aqui .
Se você não está no contexto de modelagem hierárquica, sugiro comparar o posterior (ou quaisquer resultados que você esteja criando), mas use o Jeffreys anterior para um parâmetro de escala, que é dado por . Isso pode ser criado como um limite da densidade Beta 2, pois ambos os parâmetros convergem para zero. Para uma aproximação, você pode usar valores pequenos. Mas eu tentaria elaborar a solução analiticamente, se possível (e, se não for uma solução analítica completa, faça com que a solução analítica progrida o máximo possível), porque você não economizará apenas algum tempo computacional, mas estará também provavelmente entenderá melhor o que está acontecendo no seu modelo.p(σ)∝1σ
Uma alternativa adicional é especificar suas informações anteriores na forma de restrições (média igual a , variação igual a , IQR igual a , etc. com os valores de especificados por você) e, em seguida, usar o distribuição máxima de entropia (procure em qualquer obra de Edwin Jaynes ou Larry Bretthorst uma boa explicação sobre o que é Máxima Entropia e o que não é) com relação à "medida invariável" de Jeffreys . V I Q R M , V , I Q R m ( σ ) = 1M V IQR M,V,IQR m(σ)=1σ
MaxEnt é a versão "Rolls Royce", enquanto o Beta 2 é mais uma versão "sedan". A razão para isso é que a distribuição MaxEnt "assume o mínimo", sujeita às restrições que você colocou nela (por exemplo, nenhuma restrição significa que você acabou de obter o Jeffreys antes), enquanto a distribuição Beta 2 pode conter alguns recursos "ocultos" que pode ou não ser desejável no seu caso específico (por exemplo, se as informações anteriores forem mais confiáveis que os dados, o Beta 2 será ruim).
A outra boa propriedade da distribuição MaxEnt é que, se não houver restrições não especificadas operando no mecanismo de geração de dados , a distribuição MaxEnt é predominantemente a distribuição mais provável que você verá (estamos falando de probabilidades de bilhões e trilhões para um). Portanto, se a distribuição que você vê não for a MaxEnt, provavelmente haverá restrições adicionais que você não especificou que operam no processo verdadeiro, e os valores observados podem fornecer uma pista sobre qual pode ser essa restrição.
fonte
O artigo a seguir de Daniels compara uma variedade de antecedentes de retração para a variação. Estes são antecedentes adequados, mas não tenho certeza de quantos poderiam ser chamados de não informativos, se houver. Mas ele também fornece uma lista de antecedentes não informativos (nem todos apropriados). Abaixo está a referência.
Priores
Outro artigo mais recente em uma veia relacionada é o seguinte.
fonte
(A questão é obsoleta, mas o problema não é)
Pessoalmente, acho que sua intuição faz algum sentido. Ou seja, se você não precisar da ordem matemática da conjugação, seja qual for a distribuição que você usaria para um parâmetro de localização, use a mesma para o log de um parâmetro de escala. Então, o que você está dizendo é: use o equivalente a um anterior normal.
Você realmente usaria um anterior normal para um parâmetro de localização? A maioria das pessoas diria que, a menos que você faça a variação enorme, isso provavelmente é "dogmático demais", por razões explicadas nas outras respostas aqui (influência ilimitada). Uma exceção seria se você estiver fazendo bayes empíricos; isto é, usando seus dados para estimar os parâmetros do seu anterior.
Se você quer ser "pouco informativo", provavelmente escolheria uma distribuição com caudas mais gordas; os candidatos óbvios são t distribuições. O conselho mais recente de Gelman parece ser o de usar com df de 3-7. (Observe que o link também suporta minha sugestão de que você queira fazer o mesmo para o log de escala que você faria para o local). Portanto, em vez de um lognormal, você pode usar um log-student-t. Para fazer isso em stan, você pode fazer algo como:
No entanto, acho que, se o código acima for muito complexo para você, você provavelmente poderá obter um lognormal anterior, com duas advertências. Primeiro, faça a variação disso antes algumas vezes maior do que você imagina como "não tem certeza"; você quer um anterior pouco informativo, não muito informativo. E segundo, depois de ajustar seu modelo, verifique a mediana posterior do parâmetro e verifique se o log não está muito longe do centro do lognormal. "Não longe demais" provavelmente significa: menos de dois desvios-padrão e, de preferência, não muito mais que um DP.
fonte
Para parâmetros de escala de modelo hierárquico, acabei usando a sugestão de Andrew Gelman de usar uma distribuição t dobrada e não central. Isso funcionou bastante decentemente para mim.
fonte