Defina o critério de informação bayesiano como (eu não descarto o constante, , para evitar problemas ao equacionar a probabilidade marginal)
Dado dados e um modelo , a relação aproximada entre a probabilidade marginal e seja quais parece implicar
Dado um modelo nulo e alternativo, e , respectivamente, o teste de hipótese bayesiana para a probabilidade da alternativa condicional nos dados pode ser calculado como onde a probabilidade anterior, para . Minha pergunta é quando, se alguma vez, é correto aproximar para testes de hipótese bayesiana. Apesar da simplicidade da equação acima, raramente a vi usada na prática, o que me faz duvidar de sua confiabilidade como uma aproximação.
hypothesis-testing
bayesian
bic
Zachary Blumenfeld
fonte
fonte
Respostas:
Você pode construir exatamente uma aproximação assintótica, mas note que é possível reescrevê-la em termos da diferença de (digamos) (ou de qualquer constante conveniente). Isso pode ajudar a evitar problemas com excesso ou excesso ao exponenciar números que podem estar muito longe de 0.BIC0
Observe ainda que (usando uma abordagem semelhante à usada) generaliza para uma coleção maior de modelos alternativos do que apenas dois.
Eu não chamaria isso de "teste de hipóteses"; na minha opinião, está mais próximo da seleção de modelos bayesianos, mas ocorre com mais frequência em um contexto relacionado, mas um pouco diferente. (Não se importe comigo, porém, outras pessoas se referiram a ela ou algo parecido com isso como teste de hipóteses, provavelmente você pode encontrar vários exemplos entre as referências nos links abaixo e em outros lugares.)
(Ou uma forma ligeiramente reescrita) é uma aproximação que eu tenho visto com frequência (acho que depende de quais coisas você lê) e produz uma probabilidade posterior aproximada dos modelos em consideração (sob um conjunto específico de premissas).
Ocorre particularmente frequentemente no contexto de discussões sobre média do modelo ou incerteza do modelo , onde, em vez de escolher um modelo específico e condicionar essa escolha, todos os modelos * são ponderados por sua probabilidade posterior, para (por exemplo) produzir um distribuição de previsões.
* ou, às vezes, apenas um subconjunto dos modelos com as maiores probabilidades posteriores, geralmente como uma aproximação de um conjunto geral, mas às vezes extremamente grande. (veja também a janela de Occam )
Se você pesquisar no modelo bayesiano de média e no BIC , poderá encontrar várias referências (nomes como Hoeting, Raftery ou Madigan estão em alguns artigos, mas muitos outros autores escrevem sobre esse assunto); se você não encontrar nenhum, posso apontar alguns.
Apenas como um exemplo, em Raftery [1], equação 35, ele usa exatamente uma expressão como a anterior, mas generaliza para modelos.k
Tente estes links, que possuem vários artigos que fazem algo semelhante ao que você descreve (no primeiro link, não consigo carregar o original, por isso fui para a última versão em archive.org):
https://web.archive.org/web/20150925053749/http://www2.research.att.com/~volinsky/bma.html
http://www.stat.washington.edu/raftery/Research/bma.html
(nem todos os links nessas páginas serão necessariamente o que você procura, mas cada um terá muitos documentos relacionados a ele.)
[1] Raftery, AE (1995).
"Seleção de modelo bayesiano em pesquisa social (com discussão)."
Sociological Methodology , 25, 111-196.
fonte