Ensino física a estudantes do ensino médio e gostaria que meus alunos fizessem uma comparação rudimentar do modelo bayesiano para obter dados de seus experimentos. Eu descobri uma maneira de fazê-lo (veja abaixo), mas não tenho certeza de que esteja correto. Eu gostaria muito de receber algum feedback sobre ele (especialmente feedback negativo!), Ou sugestões sobre como fazê-lo melhor.
Gostaria de comparar uma teoria linear, com parâmetros inclinação e interceptar , a uma hipótese nula de uma encosta ou seja constante = 0. Nos dois casos, assumo o ruído simétrico gaussiano.b a
Os alunos podem derivar, usando o Excel, as estimativas de probabilidade máxima para a inclinação e a interceptação ( e ), e seus erros e . b dadb
- Para o anterior na encosta, considero um gaussiano amplo, centrado na estimativa máxima = verossimilhança ( ) e com um desvio padrão de dez vezes isso. Meu raciocínio é que, realisticamente, espero que eles encontrem os parâmetros de linha "corretos" pelo menos dentro de uma magnitude e, na prática, eles encontrarão outros ainda mais próximos; portanto, se eu substituir a inclinação "correta" por seu MLE, não mudarei o números demais.
- Para a probabilidade da evidência dada a qualquer teoria linear específica, considero a distribuição gaussiana multivariada padrão, com um desvio padrão ( ) relacionado à soma dos resíduos ao quadrado.
- A probabilidade da evidência para a teoria linear em geral, ou seja, a integral do anterior e da probabilidade acima, é, portanto, estimada como sendo o prior e a probabilidade no ponto MLE, vezes o erro na inclinação .
- A probabilidade da evidência dada a hipótese nula é assumida como outra gaussiana multivariada, agora usando o desvio padrão total ( ), com base na diferença da média Y.
Esta é a parte da qual tenho menos certeza: estimo o fator Bayes como a razão das duas probabilidades acima (3 e 4 acima), o que me permite apresentar a seguinte fórmula:
Isso nos daria estimativas razoáveis para o fator Bayes? Qualquer feedback é bem-vindo.
fonte
Respostas:
Primeiro, deixe-me dizer que o teste sensível de uma hipótese aguda como requer uma distribuição prévia ponderada para , porque o fator Bayes depende criticamente disso antes. Muitos bayesianos não testam uma hipótese nítida, mas eu testarei.aa=0 a
Antes de prosseguir, devo lhe dizer que realmente não entendo o que você diz que está fazendo e, portanto, posso estar dando conselhos que você não está procurando. Espero que você possa seguir a notação de maio.
Sejam dados observações: , onde (de acordo com o modelo mais geral e inclui a inclinação) (Estou suprimindo a variável independente da lista de argumentos de condicionamento para simplificar a notação.) A probabilidade é dada por Dado um anterior para , a distribuição posterior é onde a probabilidade dos dados de acordo com o modelo mais geral é y = ( ( x 1 , y 1 ) , … , ( x n , y n ) ) p ( y i |n y=((x1,y1),…,(xn,yn)) x i p ( y | a , b , σ 2 ) = n ∏ i = 1 p ( y i | a , b , σ 2 ) . ( a , b , σ 2 )
Com essas expressões, agora podemos escrever o marginal posterior para : Vamos reorganizar essa expressão: Como essa expressão é verdadeira para todo valor de , é verdadeira em particular para : Observe que o numerador na fração do lado esquerdo é a probabilidade dos dados de acordo com o modelo restrito (ou seja, restrito ap ( a | ya
A fração do lado direito nos fornece uma maneira de avaliar o fator Bayes: Diz para dividir a densidade posterior avaliada em pela densidade anterior avaliada em . (A propósito, a "fórmula" é chamada de razão de densidade Savage-Dickey.) Agora é aparente por que é necessário um prévio cuidadoso para . Se deixarmos que a densidade prévia para ser muito incerto, a densidade prévia será muito baixa em todos os lugares, incluindo a , mas a densidade posterior em não vai para zero, e, consequentemente, o fator de Bayes vai para o infinito. Nesse caso, "entrada de lixo" produz "saída de lixo".a=0 a=0 a a a=0 a=0
Você pode imaginar que, se não seguir as etapas descritas, não estará sujeito a esse problema, mas estará errado. A lógica que apresentei se aplica independentemente do "algoritmo" que você aplica.
Mas as etapas fornecem um algoritmo que pode ser útil. Suponha que o prior para os parâmetros seja dado pelo "Jeffreys prior" Isso equivale a usar um anterior impróprio nos "parâmetros de incômodo" . Isso é bom, mas como uma prévia não seria apropriado para para a razão que eu discutido acima. Com isso, --- a probabilidade (marginal) de --- será proporcional à distribuição de Student , cujos parâmetros dependem dos dados . Esta distribuição é um resumo completo dos dados, que podem ser descartados. Agora você deve escolher um adequado e bem informado antes de( b , σ 2 ) a p ( y | a )
Espero que você encontre algo no que eu disse útil.
fonte