Distribuição beta ao lançar uma moeda

11

O livro bayesiano de Kruschke diz que, com relação ao uso de uma distribuição beta para lançar uma moeda,

Por exemplo, se não temos conhecimento prévio além do conhecimento de que a moeda tem um lado da cabeça e um da cauda, ​​isso equivale a ter observado anteriormente uma cabeça e uma cauda, ​​o que corresponde a a = 1 eb = 1.

Por que nenhuma informação seria equivalente a ter visto uma cabeça e uma cauda - 0 cara e 0 coroa parecem mais naturais para mim.

Hatshepsut
fonte
8
(+1) A citação é enganosa porque convida o leitor a igualar dois sentidos muito diferentes de "observar". O sentido usado aqui é o de ter inspecionado a própria moeda - na verdade, significa que você entende a configuração experimental. Mas a conclusão de que isso implica depende da reinterpretação de "observar" no sentido diferente de ter realizado o experimento duas vezes, durante o qual um resultado era cara e o outro coroa. Esse tipo de truque lógico é uma imitação intelectual; apenas faz com que os métodos bayesianos pareçam arbitrários e logicamente escorregadios, o que é uma pena. a=b=1
whuber
A cotação está errada: não há justificativa para um prior de Beta (1, 1).
Neil G
Poder-se-ia argumentar facilmente que é o valor de uma única observação - meia cabeça / meia cauda.
Glen_b -Reinstala Monica
4
Lembre-se do objetivo pretendido dessa passagem no livro. Supõe-se que seja uma justificativa intuitiva simples para usuários iniciantes aplicados , obviamente não um argumento matemático e definitivamente não uma afirmação de que beta (1,1) é o melhor ou o único vago anterior. Em outras partes do livro, esforço-me para mostrar que variações modestas nos anteriores vagas não fazem diferença substantiva no posterior quando há uma quantidade moderadamente grande de dados. (Exceto os fatores de Bayes, é claro, que são altamente sensíveis ao anterior!) Em outros escritos, discuti o Haldane antes.
John K. Kruschke

Respostas:

17

A cotação é um "truque lógico" (ótima expressão!), Conforme observado por @whuber nos comentários ao OP. A única coisa que podemos realmente dizer depois de ver que a moeda tem uma cabeça e uma cauda é que ambos os eventos "cabeça" e "cauda" não são impossíveis. Assim, poderíamos descartar um prior discreto que coloca toda a massa de probabilidade na "cabeça" ou na "cauda". Mas isso não leva, por si só, ao uniforme anterior: a questão é muito mais sutil. Vamos primeiro resumir um pouco do histórico. Estamos considerando o modelo de conjugado beta-binominal para inferência bayesiana da probabilidade de cabeças de uma moeda, dado lançamentos independentes e identicamente distribuídos (condicionalmente em ).θnθp(θ|x)quando observamos cabeças em arremessos:xn

p(θ|x)=Beta(x+α,nx+β)

podemos dizer que e desempenham os papéis de um "número anterior de cabeças" e "número anterior de caudas" (pseudotriais) e pode ser interpretado como um tamanho de amostra efetivo. Também podemos chegar a essa interpretação usando a expressão conhecida para a média posterior como uma média ponderada da média anterior e a amostra média .αβα+βαα+βxn

Observando , podemos fazer duas considerações:p(θ|x)

  1. como não temos conhecimento prévio sobre (máxima ignorância), esperamos intuitivamente que o tamanho efetivo da amostra seja "pequeno". Se fosse grande, o anterior estaria incorporando bastante conhecimento. Outra maneira de ver isso é notar que, se e são "pequenos" em relação a e , a probabilidade posterior não dependerá muito do nosso anterior, porque e . . Esperamos que um prior que não incorpore muito conhecimento se torne rapidamente irrelevante à luz de alguns dados.θα+βαβxnxx+αxnx+βnx
  2. Além disso, como é a média anterior e não temos conhecimento prévio sobre a distribuição de , esperamos que . Esse é um argumento de simetria - se não soubermos melhor, não esperaríamos a priori que a distribuição seja inclinada para 0 ou para 1. A distribuição Beta éμprior=αα+βθμprior=0.5

    f(θ|α,β)=Γ(α+β)Γ(α)+Γ(β)θα1(1θ)β1

    Essa expressão é apenas simétrica em torno de se .θ=0.5α=β

Por esses dois motivos, seja qual for o anterior (pertencente à família Beta - lembre-se, modelo conjugado!) Que escolhemos usar, esperamos intuitivamente que e seja "pequeno". Podemos ver que todos os três antecedentes não informativos comumente usados ​​para o modelo beta-binomial compartilham essas características, mas, além disso, são bem diferentes. E isso é óbvio: nenhum conhecimento prévio, ou "ignorância máxima", não é uma definição científica; portanto, que tipo de prior expressa "ignorância máxima", ou seja, o que é um prior não informativo depende do que você realmente entende como "máximo" ignorância".α=β=cc

  1. poderíamos escolher um prior que diga que todos os valores para são equiprobáveis, pois não conhecemos melhor. Novamente, um argumento de simetria. Isso corresponde a :θα=β=1

    f(θ|1,1)=Γ(2)2Γ(1)θ0(1θ)0=1

    para , isto é, o uniforme anterior usado por Kruschke. Mais formalmente, escrevendo a expressão para a entropia diferencial da distribuição Beta, você pode ver que ela é maximizada quando . Agora, a entropia é frequentemente interpretada como uma medida da "quantidade de informações" transportada por uma distribuição: uma entropia mais alta corresponde a menos informações. Assim, você pode usar esse princípio de entropia máxima para dizer que, dentro da família Beta, o prior que contém menos informações (máxima ignorância) é esse prior uniforme.θ[0,1]α=β=1

  2. Você pode escolher outro ponto de vista, o usado pelo OP, e dizer que nenhuma informação corresponde a não ter visto nenhuma cabeça nem cauda, ​​ou seja,

    α=β=0π(θ)θ1(1θ)1

    O prior que obtemos dessa maneira é chamado de Haldane prior . A função tem um pequeno problema - a integral sobre é infinita, ou seja, independentemente da constante de normalização, ela não pode ser transformado em um pdf adequado. Na verdade, o Haldane anterior é um pmf adequado , que coloca a probabilidade 0,5 em , 0,5 em e 0 em todos os outros valores de . No entanto, não vamos nos deixar levar - para um parâmetro contínuo , os anteriores que não correspondem a um pdf adequado são chamados de anteriores imprópriosθ1(1θ)1I=[0,1]θ=0θ=1θθ. Como, como observado anteriormente, tudo o que importa para a inferência bayesiana é a distribuição posterior, os anteriores impróprios são admissíveis, desde que a distribuição posterior seja adequada. No caso do Haldane anterior, podemos provar que o pdf posterior é adequado se nossa amostra contiver pelo menos um sucesso e uma falha. Assim, só podemos usar o Haldane antes quando observamos pelo menos uma cabeça e uma cauda.

    Há outro sentido em que o prior de Haldane pode ser considerado não informativo: a média da distribuição posterior agora é , isto é, a frequência da amostra das cabeças, que é a estimativa MLE freqüente de para o modelo binomial do problema de troca de moedas. Além disso, os intervalos credíveis para correspondem aos intervalos de confiança de Wald. Como os métodos freqüentistas não especificam um prior, pode-se dizer que o prior de Haldane não é informativo ou corresponde a zero conhecimento prévio, porque leva à "mesma" inferência que um freqüentador faria. θθα+xα+β+n=xnθθ

  3. Finalmente, você pode usar um prior que não depende da parametrização do problema, ou seja, o prior de Jeffreys, que para o modelo beta-binomial corresponde a

    α=β=12π(θ)θ12(1θ)12

    portanto, com um tamanho de amostra efetivo de 1. O Jeffreys prior tem a vantagem de ser invariante sob a reparametrização do espaço do parâmetro. Por exemplo, o uniforme anterior atribui igual probabilidade a todos os valores de , a probabilidade do evento "head". No entanto, você pode decidir parametrizar esse modelo em termos de log-odds do evento "head", em vez de . Qual é o prior que expressa "ignorância máxima" em termos de probabilidades de log, ou seja, que diz que todas as probabilidades de log possíveis para o evento "head" são equivalentes? É o Haldane anterior, como mostrado nesta resposta (um pouco enigmática)λ = l o g ( θθθλ=log(θ1θ)θ. Em vez disso, o Jeffreys é invariável em todas as alterações de métricas. Jeffreys afirmou que um prior que não possui essa propriedade é de alguma forma informativo, pois contém informações sobre a métrica usada para parametrizar o problema. O prior dele não.

Para resumir, não há apenas uma escolha inequívoca para um não informativo anterior no modelo beta-binomial. O que você escolhe depende do que você entende como zero conhecimento prévio e dos objetivos de sua análise.

DeltaIV
fonte
0

Está claramente incorreto. Observar 1 cara e 1 coroa significa que (é impossível ter uma moeda com todas as caras) (é impossível ter uma moeda com todas as caudas). A distribuição uniforme não é consistente com isso. O que é consistente é um beta (2,2). Desde a solução bayesiana até o problema de troca de moedas com um Laplace (ou seja, uniforme) antes do , a probabilidade posterior é de .p ( θ = 1 ) = 0 θ p ( θ ) = B e t a ( h + 1 , ( N - h ) + 1 )p(θ=0)=0p(θ=1)=0θp(θ)=Beta(h+1,(Nh)+1)

user23856
fonte
Tenho dificuldade em entender sua resposta.
Michael R. Chernick
Sua conclusão de que "a distribuição uniforme não é consistente com isso" está incorreta. Confunde densidade (que é o que deve ser entendido por " ") com probabilidade . A distribuição uniforme (contínua) atribui probabilidade zero a qualquer evento atômico, como ou . θ = 0 θ = 1pθ=0θ=1
whuber