Dadas duas matrizes x e y, ambas de comprimento n, ajustei um modelo y = a + b * x e quero calcular um intervalo de confiança de 95% para a inclinação. Este é (b - delta, b + delta) onde b é encontrado da maneira usual e
delta = qt(0.975,df=n-2)*se.slope
e se.slope é o erro padrão na inclinação. Uma maneira de obter o erro padrão da inclinação de R é summary(lm(y~x))$coef[2,2]
.
Agora, suponha que eu escreva a probabilidade da inclinação dada x e y, multiplique isso por um "plano" anterior e use uma técnica MCMC para extrair uma amostra m da distribuição posterior. Definir
lims = quantile(m,c(0.025,0.975))
Minha pergunta: é (lims[[2]]-lims[[1]])/2
aproximadamente igual ao delta, conforme definido acima?
Adendo Abaixo está um modelo JAGS simples em que esses dois parecem ser diferentes.
model {
for (i in 1:N) {
y[i] ~ dnorm(mu[i], tau)
mu[i] <- a + b * x[i]
}
a ~ dnorm(0, .00001)
b ~ dnorm(0, .00001)
tau <- pow(sigma, -2)
sigma ~ dunif(0, 100)
}
Eu executo o seguinte em R:
N <- 10
x <- 1:10
y <- c(30.5,40.6,20.5,59.1,52.5,
96.0,121.4,78.9,112.1,128.4)
lin <- lm(y~x)
#Calculate delta for a 95% confidence interval on the slope
delta.lm <- qt(0.975,df=N-2)*summary(lin)$coef[2,2]
library('rjags')
jags <- jags.model('example.bug', data = list('x' = x,'y' = y,'N' = N),
n.chains = 4,n.adapt = 100)
update(jags, 1000)
params <- jags.samples(jags,c('a', 'b', 'sigma'),7500)
lims <- quantile(params$b,c(0.025,0.975))
delta.bayes <- (lims[[2]]-lims[[1]])/2
cat("Classical confidence region: +/-",round(delta.lm, digits=4),"\n")
cat("Bayesian confidence region: +/-",round(delta.bayes,digits=4),"\n")
E pegue:
Região de confiança clássica: +/- 4.6939
Região de confiança bayesiana: +/- 5.1605
Ao executar isso várias vezes, a região de confiança bayesiana é consistentemente mais ampla que a região clássica. Então isso é devido aos priores que eu escolhi?
sigma <- pow(tau, -1/2)
ousigma <- 1/sqrt(tau)
Se você provar da parte posterior de b | ye calcular lims (como você define), deve ser o mesmo que (b - delta, b + delta). Especificamente, se você calcular a distribuição posterior de b | y sob um plano anterior, é igual à distribuição clássica de amostragem de b.
Para mais detalhes, consulte: Gelman et al. (2003). Análise Bayesiana de Dados. CRC Pressione. Seção 3.6
Editar:
Ringold, o comportamento observado por você é consistente com a idéia bayesiana. O Intervalo Credível Bayesiano (IC) é geralmente mais amplo que os clássicos. E o motivo é, como você adivinhou corretamente, os hiperpriors levados em conta a variabilidade por causa dos parâmetros desconhecidos.
Para cenários simples como estes (NÃO EM GERAL):
IC Baysiano> CI Bayesiano Empírico> CI Clássico; > == mais amplo
fonte
Para modelos gaussianos lineares, é melhor usar o pacote bayesm. Ele implementa a família semi-conjugada de priores, e o prior de Jeffreys é um caso limite dessa família. Veja meu exemplo abaixo. Estas são simulações clássicas, não há necessidade de usar o MCMC.
Não me lembro se os intervalos de credibilidade sobre os parâmetros de regressão são exatamente os mesmos que os intervalos normais de confiança dos mínimos quadrados, mas, em qualquer caso, eles são muito próximos.
fonte
Dado que a regressão linear simples é analiticamente idêntica entre a análise clássica e bayesiana com a anterior de Jeffrey, ambas analíticas, parece um pouco estranho recorrer a um método numérico como o MCMC para fazer a análise bayesiana. O MCMC é apenas uma ferramenta de integração numérica, que permite que os métodos bayesianos sejam usados em problemas mais complicados que são analiticamente intratáveis, assim como Newton-Rhapson ou Fisher Scoring são métodos numéricos para resolver problemas clássicos que são intratáveis.
A distribuição posterior p (b | y) usando o p (a, b, s) anterior de Jeffrey proporcional a 1 / s (onde s é o desvio padrão do erro) é uma distribuição t de estudante com o local b_ols, escala se_b_ols (" ("estimativa dos mínimos quadrados ordinários") e n-2 graus de liberdade. Mas a distribuição amostral de b_ols também é um aluno t com o local b, escala se_b_ols e n-2 graus de liberdade. Portanto, eles são idênticos, exceto que b e b_ols foram trocados; portanto, quando se trata de criar o intervalo, o "limite est + -" do intervalo de confiança é revertido para um "limite est - +" no intervalo credível.
Portanto, o intervalo de confiança e o intervalo credível são analiticamente idênticos, e não importa qual método é usado (desde que não haja informações prévias adicionais). O que o seu resultado com o MCMC mostra é que a aproximação específica usada com o MCMC fornece um intervalo credível que é muito amplo em comparação com o intervalo exato e credível analítico. Provavelmente, é uma coisa boa (embora desejemos que a aproximação seja melhor) que a solução bayesiana aproximada pareça mais conservadora do que a solução bayesiana exata.
fonte