Exemplo para um anterior, que, diferentemente de Jeffreys, leva a um posterior que não é invariável

17

Estou repostando uma "resposta" a uma pergunta que eu havia feito há duas semanas atrás: Por que o Jeffreys é útil antes? Era realmente uma pergunta (e eu também não tinha o direito de postar comentários), então espero que esteja tudo bem fazer isso:

No link acima, é discutido que a característica interessante de Jeffreys anterior é que, ao remeterar o modelo, a distribuição posterior resultante fornece probabilidades posteriores que obedecem às restrições impostas pela transformação. Digamos, como discutido lá, ao passar da probabilidade de sucesso no exemplo Beta-Bernoulli para odds , deve ser o caso em que a a posterior satisfaz .θψ=θ/(1θ)P(1/3θ2/3X=x)=P(1/2ψ2X=x)

Eu queria criar um exemplo numérico de invariância de Jeffreys antes para transformar em odds e, mais interessante, a falta de outros anteriores (digamos, Haldane, uniformes ou arbitrários).θψ

Agora, se o posterior para a probabilidade de sucesso for Beta (para qualquer Beta anterior, não apenas Jeffreys), o posterior das probabilidades segue uma distribuição Beta do segundo tipo (consulte a Wikipedia) com os mesmos parâmetros . Então, como destacado no exemplo numérico abaixo, não é de surpreender (pelo menos para mim) que haja invariância para qualquer escolha de Beta anterior (brinque com alpha0_Ue beta0_U), não apenas Jeffreys, cf. a saída do programa.

library(GB2) 
# has the Beta density of the 2nd kind, the distribution of theta/(1-theta) if theta~Beta(alpha,beta)

theta_1 = 2/3 # a numerical example as in the above post
theta_2 = 1/3

odds_1 = theta_1/(1-theta_1) # the corresponding odds
odds_2 = theta_2/(1-theta_2)

n = 10 # some data
k = 4

alpha0_J = 1/2 # Jeffreys prior for the Beta-Bernoulli case
beta0_J = 1/2
alpha1_J = alpha0_J + k # the corresponding parameters of the posterior
beta1_J = beta0_J + n - k

alpha0_U = 0 # some other prior
beta0_U = 0
alpha1_U = alpha0_U + k # resulting posterior parameters for the other prior
beta1_U = beta0_U + n - k

# posterior probability that theta is between theta_1 and theta_2:
pbeta(theta_1,alpha1_J,beta1_J) - pbeta(theta_2,alpha1_J,beta1_J) 
# the same for the corresponding odds, based on the beta distribution of the second kind
pgb2(odds_1, 1, 1,alpha1_J,beta1_J) - pgb2(odds_2, 1, 1,alpha1_J,beta1_J) 

# same for the other prior and resulting posterior
pbeta(theta_1,alpha1_U,beta1_U) - pbeta(theta_2,alpha1_U,beta1_U)
pgb2(odds_1, 1, 1,alpha1_U,beta1_U) - pgb2(odds_2, 1, 1,alpha1_U,beta1_U)

Isso me leva às seguintes perguntas:

  1. Eu cometo um erro?
  2. Se não, existe um resultado como falta de invariância em famílias conjugadas ou algo assim? (A inspeção rápida me leva a suspeitar que, por exemplo, eu também não produzisse falta de invariância no caso normal-normal.)
  3. Você conhece um exemplo (de preferência simples) em que fazem obter falta de invariância?
Christoph Hanck
fonte
1
Você não precisa do código R (que não pode ser executado com o R versão 3.0.2) para verificar a invariância, pois é uma propriedade da probabilidade. O que se entende por invariância prévia é a construção de uma regra para a seleção prévia que não depende da escolha da parametrização do modelo de amostragem.
Xian
1
Me desculpe pela incoveniência. É executado com o R 3.1.2 no meu computador. Se eu puder acompanhar, o seu comentário implica que eu não entendi o comentário de Zen sobre a resposta aceita, item 1., de Stephane Laurent, sobre Por que o Jeffreys é útil antes? ?
Christoph Hanck

Respostas:

19

Seu cálculo parece estar verificando que, quando temos uma distribuição anterior específica os dois procedimentos a seguirp(θ)

  1. Calcule a parte posteriorpθD(θD)
  2. Transforme o posterior mencionado na outra parametrização para obterpψD(ψD)

e

  1. Transforme o anterior na outra parametrização para obterp ψ ( ψ )pθ(θ)pψ(ψ)
  2. Usando o anterior , calcule o posteriorp ψ | D ( ψ | D )pψ(ψ)pψD(ψD)

ψψψθ

No entanto, este não é o ponto da invariância em questão. Em vez disso, a questão é se, quando temos um método específico para decidir o prior, os dois procedimentos a seguir:

  1. pθ(θ)
  2. Converta essa distribuição empψ(ψ)

e

  1. Use o método para decidir o prior para decidirpψ(ψ)

resultam na mesma distribuição anterior para . Se eles resultarem no mesmo anterior, eles também resultarão no mesmo posterior (como você verificou em alguns casos).ψ

Como mencionado na resposta de @ NeilG, se o seu Método para decidir o prior for 'definir uniforme antes do parâmetro', você não obterá o mesmo antes no caso de probabilidade / probabilidades, como o uniforme anterior para acima de não é uniforme para acima de .[ 0 , 1 ] ψ [ 0 , )θ[0,1]ψ[0,)

Em vez disso, se o seu Método para decidir o prior for 'use o prior de Jeffrey para o parâmetro', não importa se você o usa para e converte-o na parametrização , ou diretamente para . Esta é a invariância reivindicada.ψ ψθψψ

Juho Kokkala
fonte
1

Parece que você está verificando se as probabilidades induzidas pelos dados não são afetadas pela parametrização, o que não tem nada a ver com o anterior.

Se sua maneira de escolher os anteriores é, por exemplo, "escolher o uniforme anterior", então o que é uniforme sob uma parametrização (digamos Beta, ie Beta (1,1)) não é uniforme sob outra, digamos, BetaPrime (1,1 ) (que está inclinado) - o BetaPrime (1, -1) é uniforme se existe algo assim.

O prior de Jeffreys é a única "maneira de escolher os anteriores" que é invariável sob reparametrização. Portanto, é menos presuntivo do que qualquer outra maneira de escolher os anteriores.

Neil G
fonte
Não acho que o prior de Jeffreys seja o único anterior invariável. Quando diferem, as medidas de Haar esquerda e direita são ambas invariáveis.
Xian
@ Neil G, não tenho certeza se posso seguir o seu raciocínio de que só vejo a probabilidade. Quando ligar (por exemplo) alpha1_Jem pbetae pgb2este parâmetro é determinado por um parâmetro anterior ( alpha1_J) e os dados ( k), do mesmo modo para todos os outros parâmetros.
Christoph Hanck
1
(+1) Você esperaria que a obtenção de antecedentes subjetivos também fosse invariável para a parametrização.
Scortchi - Restabelecer Monica
1
@ Zen: sim, de fato, eu estava com muita pressa: as medidas de Haar são um exemplo incorreto. Ainda assim, eu me pergunto por que Jeffreys 'é o único invariante anterior ...'
Xian
2
@ Xi'an: se minha memória não me falha, há um teorema no livro de Cencov ( amazon.com/… ) que, em certo sentido (?), Prova que Jeffreys anterior é o único cara na cidade com o invariância necessária. Sua prova é inacessível para mim. Ele usa a linguagem da teoria das categorias, functores, morfismos e tudo mais. pt.wikipedia.org/wiki/Category_theory
Zen