O livro bayesiano de Kruschke diz que, com relação ao uso de uma distribuição beta para lançar uma moeda,
Por exemplo, se não temos conhecimento prévio além do conhecimento de que a moeda tem um lado da cabeça e um da cauda, isso equivale a ter observado anteriormente uma cabeça e uma cauda, o que corresponde a a = 1 eb = 1.
Por que nenhuma informação seria equivalente a ter visto uma cabeça e uma cauda - 0 cara e 0 coroa parecem mais naturais para mim.
probability
bayesian
beta-distribution
Hatshepsut
fonte
fonte
Respostas:
A cotação é um "truque lógico" (ótima expressão!), Conforme observado por @whuber nos comentários ao OP. A única coisa que podemos realmente dizer depois de ver que a moeda tem uma cabeça e uma cauda é que ambos os eventos "cabeça" e "cauda" não são impossíveis. Assim, poderíamos descartar um prior discreto que coloca toda a massa de probabilidade na "cabeça" ou na "cauda". Mas isso não leva, por si só, ao uniforme anterior: a questão é muito mais sutil. Vamos primeiro resumir um pouco do histórico. Estamos considerando o modelo de conjugado beta-binominal para inferência bayesiana da probabilidade de cabeças de uma moeda, dado lançamentos independentes e identicamente distribuídos (condicionalmente em ).θ n θ p(θ|x) quando observamos cabeças em arremessos:x n
podemos dizer que e desempenham os papéis de um "número anterior de cabeças" e "número anterior de caudas" (pseudotriais) e pode ser interpretado como um tamanho de amostra efetivo. Também podemos chegar a essa interpretação usando a expressão conhecida para a média posterior como uma média ponderada da média anterior e a amostra média .α β α+β αα+β xn
Observando , podemos fazer duas considerações:p(θ|x)
Além disso, como é a média anterior e não temos conhecimento prévio sobre a distribuição de , esperamos que . Esse é um argumento de simetria - se não soubermos melhor, não esperaríamos a priori que a distribuição seja inclinada para 0 ou para 1. A distribuição Beta éμprior=αα+β θ μprior=0.5
Essa expressão é apenas simétrica em torno de se .θ=0.5 α=β
Por esses dois motivos, seja qual for o anterior (pertencente à família Beta - lembre-se, modelo conjugado!) Que escolhemos usar, esperamos intuitivamente que e seja "pequeno". Podemos ver que todos os três antecedentes não informativos comumente usados para o modelo beta-binomial compartilham essas características, mas, além disso, são bem diferentes. E isso é óbvio: nenhum conhecimento prévio, ou "ignorância máxima", não é uma definição científica; portanto, que tipo de prior expressa "ignorância máxima", ou seja, o que é um prior não informativo depende do que você realmente entende como "máximo" ignorância".α=β=c c
poderíamos escolher um prior que diga que todos os valores para são equiprobáveis, pois não conhecemos melhor. Novamente, um argumento de simetria. Isso corresponde a :θ α=β=1
para , isto é, o uniforme anterior usado por Kruschke. Mais formalmente, escrevendo a expressão para a entropia diferencial da distribuição Beta, você pode ver que ela é maximizada quando . Agora, a entropia é frequentemente interpretada como uma medida da "quantidade de informações" transportada por uma distribuição: uma entropia mais alta corresponde a menos informações. Assim, você pode usar esse princípio de entropia máxima para dizer que, dentro da família Beta, o prior que contém menos informações (máxima ignorância) é esse prior uniforme.θ∈[0,1] α=β=1
Você pode escolher outro ponto de vista, o usado pelo OP, e dizer que nenhuma informação corresponde a não ter visto nenhuma cabeça nem cauda, ou seja,
O prior que obtemos dessa maneira é chamado de Haldane prior . A função tem um pequeno problema - a integral sobre é infinita, ou seja, independentemente da constante de normalização, ela não pode ser transformado em um pdf adequado. Na verdade, o Haldane anterior é um pmf adequado , que coloca a probabilidade 0,5 em , 0,5 em e 0 em todos os outros valores de . No entanto, não vamos nos deixar levar - para um parâmetro contínuo , os anteriores que não correspondem a um pdf adequado são chamados de anteriores imprópriosθ−1(1−θ)−1 I=[0,1] θ=0 θ=1 θ θ . Como, como observado anteriormente, tudo o que importa para a inferência bayesiana é a distribuição posterior, os anteriores impróprios são admissíveis, desde que a distribuição posterior seja adequada. No caso do Haldane anterior, podemos provar que o pdf posterior é adequado se nossa amostra contiver pelo menos um sucesso e uma falha. Assim, só podemos usar o Haldane antes quando observamos pelo menos uma cabeça e uma cauda.
Há outro sentido em que o prior de Haldane pode ser considerado não informativo: a média da distribuição posterior agora é , isto é, a frequência da amostra das cabeças, que é a estimativa MLE freqüente de para o modelo binomial do problema de troca de moedas. Além disso, os intervalos credíveis para correspondem aos intervalos de confiança de Wald. Como os métodos freqüentistas não especificam um prior, pode-se dizer que o prior de Haldane não é informativo ou corresponde a zero conhecimento prévio, porque leva à "mesma" inferência que um freqüentador faria. θθα+xα+β+n=xn θ θ
Finalmente, você pode usar um prior que não depende da parametrização do problema, ou seja, o prior de Jeffreys, que para o modelo beta-binomial corresponde a
portanto, com um tamanho de amostra efetivo de 1. O Jeffreys prior tem a vantagem de ser invariante sob a reparametrização do espaço do parâmetro. Por exemplo, o uniforme anterior atribui igual probabilidade a todos os valores de , a probabilidade do evento "head". No entanto, você pode decidir parametrizar esse modelo em termos de log-odds do evento "head", em vez de . Qual é o prior que expressa "ignorância máxima" em termos de probabilidades de log, ou seja, que diz que todas as probabilidades de log possíveis para o evento "head" são equivalentes? É o Haldane anterior, como mostrado nesta resposta (um pouco enigmática)λ = l o g ( θθ θλ=log(θ1−θ) θ . Em vez disso, o Jeffreys é invariável em todas as alterações de métricas. Jeffreys afirmou que um prior que não possui essa propriedade é de alguma forma informativo, pois contém informações sobre a métrica usada para parametrizar o problema. O prior dele não.
Para resumir, não há apenas uma escolha inequívoca para um não informativo anterior no modelo beta-binomial. O que você escolhe depende do que você entende como zero conhecimento prévio e dos objetivos de sua análise.
fonte
Está claramente incorreto. Observar 1 cara e 1 coroa significa que (é impossível ter uma moeda com todas as caras) (é impossível ter uma moeda com todas as caudas). A distribuição uniforme não é consistente com isso. O que é consistente é um beta (2,2). Desde a solução bayesiana até o problema de troca de moedas com um Laplace (ou seja, uniforme) antes do , a probabilidade posterior é de .p ( θ = 1 ) = 0 θ p ( θ ) = B e t a ( h + 1 , ( N - h ) + 1 )p(θ=0)=0 p(θ=1)=0 θ p(θ)=Beta(h+1,(N−h)+1)
fonte