Distribuição beta ao lançar uma moeda

O livro bayesiano de Kruschke diz que, com relação ao uso de uma distribuição beta para lançar uma moeda,

Por exemplo, se não temos conhecimento prévio além do conhecimento de que a moeda tem um lado da cabeça e um da cauda, isso equivale a ter observado anteriormente uma cabeça e uma cauda, o que corresponde a a = 1 eb = 1.

Por que nenhuma informação seria equivalente a ter visto uma cabeça e uma cauda - 0 cara e 0 coroa parecem mais naturais para mim.

probability bayesian beta-distribution Hatshepsut
fonte

(+1) A citação é enganosa porque convida o leitor a igualar dois sentidos muito diferentes de "observar". O sentido usado aqui é o de ter inspecionado a própria moeda - na verdade, significa que você entende a configuração experimental. Mas a conclusão de que isso implica depende da reinterpretação de "observar" no sentido diferente de ter realizado o experimento duas vezes, durante o qual um resultado era cara e o outro coroa. Esse tipo de truque lógico é uma imitação intelectual; apenas faz com que os métodos bayesianos pareçam arbitrários e logicamente escorregadios, o que é uma pena.

a = b = 1

$a=b=1$

whuber

A cotação está errada: não há justificativa para um prior de Beta (1, 1).

Neil G

Poder-se-ia argumentar facilmente que é o valor de uma única observação - meia cabeça / meia cauda.

Glen_b -Reinstala Monica

Lembre-se do objetivo pretendido dessa passagem no livro. Supõe-se que seja uma justificativa intuitiva simples para usuários iniciantes aplicados , obviamente não um argumento matemático e definitivamente não uma afirmação de que beta (1,1) é o melhor ou o único vago anterior. Em outras partes do livro, esforço-me para mostrar que variações modestas nos anteriores vagas não fazem diferença substantiva no posterior quando há uma quantidade moderadamente grande de dados. (Exceto os fatores de Bayes, é claro, que são altamente sensíveis ao anterior!) Em outros escritos, discuti o Haldane antes.

John K. Kruschke

A cotação é um "truque lógico" (ótima expressão!), Conforme observado por @whuber nos comentários ao OP. A única coisa que podemos realmente dizer depois de ver que a moeda tem uma cabeça e uma cauda é que ambos os eventos "cabeça" e "cauda" não são impossíveis. Assim, poderíamos descartar um prior discreto que coloca toda a massa de probabilidade na "cabeça" ou na "cauda". Mas isso não leva, por si só, ao uniforme anterior: a questão é muito mais sutil. Vamos primeiro resumir um pouco do histórico. Estamos considerando o modelo de conjugado beta-binominal para inferência bayesiana da probabilidade de cabeças de uma moeda, dado lançamentos independentes e identicamente distribuídos (condicionalmente em ). $\theta$ $n$ $\theta$ $p(\theta|x)$ quando observamos cabeças em arremessos: $x$ $n$

p (θ | x) = B e t a (x + α, n - x + β)

$p(\theta|x) = Beta(x+\alpha, n-x+\beta)$

podemos dizer que e desempenham os papéis de um "número anterior de cabeças" e "número anterior de caudas" (pseudotriais) e pode ser interpretado como um tamanho de amostra efetivo. Também podemos chegar a essa interpretação usando a expressão conhecida para a média posterior como uma média ponderada da média anterior e a amostra média . $\alpha$ $\beta$ $\alpha+\beta$ $\frac{\alpha}{\alpha+\beta}$ $\frac{x}{n}$

Observando , podemos fazer duas considerações: $p(\theta|x)$

como não temos conhecimento prévio sobre (máxima ignorância), esperamos intuitivamente que o tamanho efetivo da amostra seja "pequeno". Se fosse grande, o anterior estaria incorporando bastante conhecimento. Outra maneira de ver isso é notar que, se e são "pequenos" em relação a e , a probabilidade posterior não dependerá muito do nosso anterior, porque e . . Esperamos que um prior que não incorpore muito conhecimento se torne rapidamente irrelevante à luz de alguns dados. $\theta$ $\alpha+\beta$ $\alpha$ $\beta$ $x$ $n-x$ $x+\alpha\approx x$ $n-x+\beta\approx n-x$
Além disso, como é a média anterior e não temos conhecimento prévio sobre a distribuição de , esperamos que . Esse é um argumento de simetria - se não soubermos melhor, não esperaríamos a priori que a distribuição seja inclinada para 0 ou para 1. A distribuição Beta é $\mu_{prior}=\frac{\alpha}{\alpha+\beta}$ $\theta$ $\mu_{prior}=0.5$

$f (θ | α, β) = \frac{Γ (α + β)}{Γ (α) + Γ (β)} θ^{α - 1} (1 - θ)^{β - 1}$ $f(\theta|\alpha,\beta)=\frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha) +\Gamma(\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}$
Essa expressão é apenas simétrica em torno de se . $\theta=0.5$ $\alpha=\beta$

Por esses dois motivos, seja qual for o anterior (pertencente à família Beta - lembre-se, modelo conjugado!) Que escolhemos usar, esperamos intuitivamente que e seja "pequeno". Podemos ver que todos os três antecedentes não informativos comumente usados para o modelo beta-binomial compartilham essas características, mas, além disso, são bem diferentes. E isso é óbvio: nenhum conhecimento prévio, ou "ignorância máxima", não é uma definição científica; portanto, que tipo de prior expressa "ignorância máxima", ou seja, o que é um prior não informativo depende do que você realmente entende como "máximo" ignorância". $\alpha=\beta=c$ $c$

poderíamos escolher um prior que diga que todos os valores para são equiprobáveis, pois não conhecemos melhor. Novamente, um argumento de simetria. Isso corresponde a : $\theta$ $\alpha=\beta=1$

$f (θ | 1, 1) = \frac{Γ (2)}{2 Γ (1)} θ^{0} (1 - θ)^{0} = 1$ $f(\theta|1,1)=\frac{\Gamma(2)}{2\Gamma(1)}\theta^{0}(1-\theta)^{0}=1$
para , isto é, o uniforme anterior usado por Kruschke. Mais formalmente, escrevendo a expressão para a entropia diferencial da distribuição Beta, você pode ver que ela é maximizada quando . Agora, a entropia é frequentemente interpretada como uma medida da "quantidade de informações" transportada por uma distribuição: uma entropia mais alta corresponde a menos informações. Assim, você pode usar esse princípio de entropia máxima para dizer que, dentro da família Beta, o prior que contém menos informações (máxima ignorância) é esse prior uniforme. $\theta\in[0,1]$ $\alpha=\beta=1$
Você pode escolher outro ponto de vista, o usado pelo OP, e dizer que nenhuma informação corresponde a não ter visto nenhuma cabeça nem cauda, ou seja,

$α = β = 0 \Rightarrow π (θ) \propto θ^{- 1} (1 - θ)^{- 1}$ $\alpha=\beta=0 \Rightarrow \pi(\theta) \propto \theta^{-1}(1-\theta)^{-1}$
O prior que obtemos dessa maneira é chamado de Haldane prior . A função tem um pequeno problema - a integral sobre é infinita, ou seja, independentemente da constante de normalização, ela não pode ser transformado em um pdf adequado. Na verdade, o Haldane anterior é um pmf adequado , que coloca a probabilidade 0,5 em , 0,5 em e 0 em todos os outros valores de . No entanto, não vamos nos deixar levar - para um parâmetro contínuo , os anteriores que não correspondem a um pdf adequado são chamados de anteriores impróprios $\theta^{-1}(1-\theta)^{-1}$ $I=[0, 1]$ $\theta=0$ $\theta=1$ $\theta$ $\theta$ . Como, como observado anteriormente, tudo o que importa para a inferência bayesiana é a distribuição posterior, os anteriores impróprios são admissíveis, desde que a distribuição posterior seja adequada. No caso do Haldane anterior, podemos provar que o pdf posterior é adequado se nossa amostra contiver pelo menos um sucesso e uma falha. Assim, só podemos usar o Haldane antes quando observamos pelo menos uma cabeça e uma cauda.

Há outro sentido em que o prior de Haldane pode ser considerado não informativo: a média da distribuição posterior agora é , isto é, a frequência da amostra das cabeças, que é a estimativa MLE freqüente de para o modelo binomial do problema de troca de moedas. Além disso, os intervalos credíveis para correspondem aos intervalos de confiança de Wald. Como os métodos freqüentistas não especificam um prior, pode-se dizer que o prior de Haldane não é informativo ou corresponde a zero conhecimento prévio, porque leva à "mesma" inferência que um freqüentador faria. $\frac{\alpha + x}{\alpha + \beta + n}=\frac{x}{n}$ $\theta$ $\theta$
Finalmente, você pode usar um prior que não depende da parametrização do problema, ou seja, o prior de Jeffreys, que para o modelo beta-binomial corresponde a

$α = β = \frac{1}{2} \Rightarrow π (θ) \propto θ^{- \frac{1}{2}} (1 - θ)^{- \frac{1}{2}}$ $\alpha=\beta=\frac{1}{2} \Rightarrow \pi(\theta) \propto \theta^{-\frac{1}{2}}(1-\theta)^{-\frac{1}{2}}$
portanto, com um tamanho de amostra efetivo de 1. O Jeffreys prior tem a vantagem de ser invariante sob a reparametrização do espaço do parâmetro. Por exemplo, o uniforme anterior atribui igual probabilidade a todos os valores de , a probabilidade do evento "head". No entanto, você pode decidir parametrizar esse modelo em termos de log-odds do evento "head", em vez de . Qual é o prior que expressa "ignorância máxima" em termos de probabilidades de log, ou seja, que diz que todas as probabilidades de log possíveis para o evento "head" são equivalentes? É o Haldane anterior, como mostrado nesta resposta (um pouco enigmática) $\theta$ $\lambda=log(\frac{\theta}{1-\theta})$ $\theta$ . Em vez disso, o Jeffreys é invariável em todas as alterações de métricas. Jeffreys afirmou que um prior que não possui essa propriedade é de alguma forma informativo, pois contém informações sobre a métrica usada para parametrizar o problema. O prior dele não.

Para resumir, não há apenas uma escolha inequívoca para um não informativo anterior no modelo beta-binomial. O que você escolhe depende do que você entende como zero conhecimento prévio e dos objetivos de sua análise.

DeltaIV
fonte

Distribuição beta ao lançar uma moeda

Respostas: