Comparação do modelo bayesiano no ensino médio

8

Ensino física a estudantes do ensino médio e gostaria que meus alunos fizessem uma comparação rudimentar do modelo bayesiano para obter dados de seus experimentos. Eu descobri uma maneira de fazê-lo (veja abaixo), mas não tenho certeza de que esteja correto. Eu gostaria muito de receber algum feedback sobre ele (especialmente feedback negativo!), Ou sugestões sobre como fazê-lo melhor.

Gostaria de comparar uma teoria linear, com parâmetros inclinação e interceptar , a uma hipótese nula de uma encosta ou seja constante = 0. Nos dois casos, assumo o ruído simétrico gaussiano.b aaba

Os alunos podem derivar, usando o Excel, as estimativas de probabilidade máxima para a inclinação e a interceptação ( e ), e seus erros e . b dadba^b^dadb

  1. Para o anterior na encosta, considero um gaussiano amplo, centrado na estimativa máxima = verossimilhança ( ) e com um desvio padrão de dez vezes isso. Meu raciocínio é que, realisticamente, espero que eles encontrem os parâmetros de linha "corretos" pelo menos dentro de uma magnitude e, na prática, eles encontrarão outros ainda mais próximos; portanto, se eu substituir a inclinação "correta" por seu MLE, não mudarei o números demais.a^
  2. Para a probabilidade da evidência dada a qualquer teoria linear específica, considero a distribuição gaussiana multivariada padrão, com um desvio padrão ( ) relacionado à soma dos resíduos ao quadrado.σe
  3. A probabilidade da evidência para a teoria linear em geral, ou seja, a integral do anterior e da probabilidade acima, é, portanto, estimada como sendo o prior e a probabilidade no ponto MLE, vezes o erro na inclinação .da
  4. A probabilidade da evidência dada a hipótese nula é assumida como outra gaussiana multivariada, agora usando o desvio padrão total ( ), com base na diferença da média Y.σT
  5. Esta é a parte da qual tenho menos certeza: estimo o fator Bayes como a razão das duas probabilidades acima (3 e 4 acima), o que me permite apresentar a seguinte fórmula:

    B10=da(10|a^|2π)(σT/σe)Ne

Isso nos daria estimativas razoáveis ​​para o fator Bayes? Qualquer feedback é bem-vindo.

Professor de física
fonte
Editei sua fórmula usando o MathJax para obter uma aparência mais simplificada e fácil de ler. Sinta-se livre para editá-lo se eu traduzi-lo errado
Marquês de Carabas
Obrigado! No entanto, os dois últimos termos (a razão se a raiz quadrada de e) devem estar fora da fração ou no numerador.
PhysicsTeacher
1
Oh! É como o LaTex! Eu corrigi as fórmulas; obrigado novamente.
precisa saber é o seguinte

Respostas:

1

Primeiro, deixe-me dizer que o teste sensível de uma hipótese aguda como requer uma distribuição prévia ponderada para , porque o fator Bayes depende criticamente disso antes. Muitos bayesianos não testam uma hipótese nítida, mas eu testarei.aa=0a

Antes de prosseguir, devo lhe dizer que realmente não entendo o que você diz que está fazendo e, portanto, posso estar dando conselhos que você não está procurando. Espero que você possa seguir a notação de maio.

Sejam dados observações: , onde (de acordo com o modelo mais geral e inclui a inclinação) (Estou suprimindo a variável independente da lista de argumentos de condicionamento para simplificar a notação.) A probabilidade é dada por Dado um anterior para , a distribuição posterior é onde a probabilidade dos dados de acordo com o modelo mais geral é y = ( ( x 1 , y 1 ) , , ( x n , y n ) ) p ( y i |ny=((x1,y1),,(xn,yn))x i p ( y | a , b , σ 2 ) = n i = 1 p ( y i | a , b , σ 2 ) . ( a , b , σ 2 )

p(yi|a,b,σ2)=N(yi|b+axi,σ2).
xi
p(y|a,b,σ2)=i=1np(yi|a,b,σ2).
(a,b,σ2) p ( y )
p(a,b,σ2|y)=p(y|a,b,σ2)p(a,b,σ2)p(y),
p(a,b,σ2)=p(a|b,σ2)
p(y)=p(y|a,b,σ2)p(a,b,σ)dσ2dbda=(p(y|a,b,σ2)p(b,σ2)dσ2db)p(a|b,σ2)da=p(y|a)p(a|b,σ2)da,
onde usei . Note-se que é a probabilidade (marginal) para e , é a anterior condicional para . Se o anterior para é independente de , então . Eu vou assumir que isso é verdade.p ( y | a ) a p ( a | b , σ 2 ) a a ( b , σ 2 ) p ( a | b , σ 2p(a,b,σ2)=p(a|b,σ2)p(b,σ2)p(y|a)ap(a|b,σ2)aa(b,σ2)p(a|b,σ2)=p(a)

Com essas expressões, agora podemos escrever o marginal posterior para : Vamos reorganizar essa expressão: Como essa expressão é verdadeira para todo valor de , é verdadeira em particular para : Observe que o numerador na fração do lado esquerdo é a probabilidade dos dados de acordo com o modelo restrito (ou seja, restrito ap ( a | ya

p(a|y)=p(y|a)p(a)p(y).
aa=0p(y
p(y|a)p(y)=p(a|y)p(a).
aa=0
p(y|a=0)p(y)=p(a=0|y)p(a=0).
a=0) E, como já observado, o denominador é a probabilidade dos dados de acordo com o modelo mais geral. Portanto, o lado esquerdo é o fator Bayes a favor do modelo restrito em relação ao modelo mais geral.

A fração do lado direito nos fornece uma maneira de avaliar o fator Bayes: Diz para dividir a densidade posterior avaliada em pela densidade anterior avaliada em . (A propósito, a "fórmula" é chamada de razão de densidade Savage-Dickey.) Agora é aparente por que é necessário um prévio cuidadoso para . Se deixarmos que a densidade prévia para ser muito incerto, a densidade prévia será muito baixa em todos os lugares, incluindo a , mas a densidade posterior em não vai para zero, e, consequentemente, o fator de Bayes vai para o infinito. Nesse caso, "entrada de lixo" produz "saída de lixo".a=0a=0aaa=0a=0

Você pode imaginar que, se não seguir as etapas descritas, não estará sujeito a esse problema, mas estará errado. A lógica que apresentei se aplica independentemente do "algoritmo" que você aplica.

Mas as etapas fornecem um algoritmo que pode ser útil. Suponha que o prior para os parâmetros seja dado pelo "Jeffreys prior" Isso equivale a usar um anterior impróprio nos "parâmetros de incômodo" . Isso é bom, mas como uma prévia não seria apropriado para para a razão que eu discutido acima. Com isso, --- a probabilidade (marginal) de --- será proporcional à distribuição de Student , cujos parâmetros dependem dos dados . Esta distribuição é um resumo completo dos dados, que podem ser descartados. Agora você deve escolher um adequado e bem informado antes de( b , σ 2 ) a p ( y | a )

p(b,σ2)1/σ2.
(b,σ2)ap(y|a)atyta . Feito isso, você pode calcular numericamente em ambos os lados a equação "Savage-Dickey".

Espero que você encontre algo no que eu disse útil.

mef
fonte
Hmm, aparentemente não posso deixar comentários longos nem editá-los por muito tempo. Vou direto ao ponto: como devo calcular o lado direito? Meu prior é Suponho que, após os dados, Então o fator Bayes é a razão entre os dois em a = 0? p(a|p(a)=110|a^|2πe(aa^)22(10|a^|2p(a|y)=1σa|2πe(aa^)22σa2
PhysicsTeacher
Não compreendo o seu anterior, pois parece envolver os dados por meio da estimativa de probabilidade máxima.
mef
Sim, estamos brincando de fingir aqui (é para o ensino médio!). O real anterior é o mesmo, exceto que o valor fornecido na literatura para a inclinação esperada é usado em vez de . Para fornecer uma fórmula de forma fechada que não dependa do experimento explícito, presumo que, como é um amplo prior e o não esteja longe do valor da literatura, podemos trocá-los sem alterar os números Muito de. humatuma^hata
PhysicsTeacher
Não entendo a lógica de suas suposições sobre o anterior. No entanto, a resposta para a pergunta no seu primeiro comentário é "sim". Eu acho que você encontrará o fator Bayes (BF) bastante sensível à sua escolha de variação anterior. Se você mudar de 10 para 20 (por exemplo), suspeito que você receberá uma grande alteração no BF. E esse é o ponto que eu estava tentando fazer.
mef
Muito obrigado mef! Ainda não entendo se meu cálculo original é razoável, mas pelo menos agora tenho um ponto de comparação. Verificarei a resposta à mudança no fator de 10 para 20 e à troca da literatura vs. . a^
PhysicsTeacher