Modelo de regressão linear simples
yi=α+βxi+ε
pode ser escrito em termos de modelo probabilístico por trás dele
μi=α+βxiyi∼N(μi,σ)
isto é, a variável dependente segue a distribuição normal parametrizada pela média , que é uma função linear de parametrizada por e pelo desvio padrão . Se você estimar esse modelo usando mínimos quadrados comuns , não precisa se preocupar com a formulação probabilística, porque está procurando valores ideais dos parâmetros , minimizando os erros quadrados dos valores ajustados para os valores previstos. Por outro lado, você poderia estimar esse modelo usando a estimativa de máxima verossimilhança , onde procuraria valores ótimos de parâmetros, maximizando a função de verossimilhançaYμiXα,βσα,β
argmaxα,β,σ∏i=1nN(yi;α+βxi,σ)
onde é uma função de densidade da distribuição normal avaliada nos pontos , parametrizada por meio de e desvio padrão .Nyiα+βxiσ
Na abordagem bayesiana, em vez de maximizar apenas a função de verossimilhança, assumiríamos distribuições anteriores para os parâmetros e usaríamos o teorema de Bayes
posterior∝likelihood×prior
A função de probabilidade é a mesma que acima, mas o que muda é que você assume algumas distribuições anteriores para os parâmetros estimados e as inclui na equaçãoα,β,σ
f(α,β,σ∣Y,X)posterior∝∏i=1nN(yi∣α+βxi,σ)likelihoodfα(α)fβ(β)fσ(σ)priors
"Quais distribuições?" é uma pergunta diferente, pois há um número ilimitado de opções. Para parâmetros você poderia, por exemplo, assumir distribuições normais parametrizadas por alguns hiperparâmetros , ou distribuição se você quiser assumir caudas mais pesadas ou distribuição uniforme se você não quiser fazer muitas suposições, mas deseja assumir que os parâmetros podem ser a priori "qualquer coisa no intervalo especificado", etc. Para você precisa assumir alguma distribuição anterior que é delimitada como sendo maior que zero, pois o desvio padrão precisa ser positivo. Isso pode levar à formulação do modelo, como ilustrado abaixo por John K. Kruschke.α,βtσ
(fonte: http://www.indiana.edu/~kruschke/BMLR/ )
Enquanto em probabilidade máxima você estava procurando um único valor ótimo para cada um dos parâmetros, na abordagem bayesiana, aplicando o teorema de Bayes, você obtém a distribuição posterior dos parâmetros. A estimativa final dependerá da informação que vem de seus dados e de seus antecedentes , mas quanto mais informação está contida em seus dados, a menos influentes são priores .
Observe que, ao usar anteriores uniformes, elas assumem a forma após eliminar as constantes de normalização. Isso faz com que o teorema de Bayes seja proporcional à função de probabilidade isolada, de modo que a distribuição posterior atingirá seu máximo exatamente no mesmo ponto da estimativa de probabilidade máxima. A seguir, a estimativa sob prioros uniformes será a mesma do uso de mínimos quadrados comuns, pois minimizar os erros ao quadrado corresponde a maximizar a probabilidade normal .f(θ)∝1
Para estimar um modelo na abordagem bayesiana em alguns casos, você pode usar anteriores conjugados , para que a distribuição posterior esteja diretamente disponível (veja o exemplo aqui ). Entretanto, na grande maioria dos casos, a distribuição posterior não estará disponível diretamente e você precisará usar os métodos Monte Carlo da Cadeia de Markov para estimar o modelo (verifique este exemplo do uso do algoritmo Metropolis-Hastings para estimar parâmetros de regressão linear). Finalmente, se você estiver interessado apenas em estimativas pontuais de parâmetros, poderá usar a estimativa máxima a posteriori , ou seja,
argmaxα,β,σf(α,β,σ∣Y,X)
Para uma descrição mais detalhada da regressão logística, você pode verificar o modelo de logit Bayesiano - explicação intuitiva? fio.
Para saber mais, consulte os seguintes livros:
Kruschke, J. (2014). Fazendo análise de dados bayesiana: um tutorial com R, JAGS e Stan. Academic Press.
Gelman, A., Carlin, JB, Stern, HS e Rubin, DB (2004).
Análise de dados bayesianos. Chapman & Hall / CRC.
Dado um conjunto de dados que , uma Regressão Linear Bayesiana modela o problema no da seguinte maneira:D=(x1,y1),…,(xN,yN) x∈Rd,y∈R
Anterior:
Probabilidade:
Assumimos queYi⊥Yj|w,i≠j
Por agora vamos usar a precisão ao invés da variância, , e . Também assumiremos que são conhecidos.a=1/σ2 b=1/σ2w a,b
O anterior pode ser declarado como
E a probabilidade de
onde e é um matriz em que o i-ésimo fileira é .y=(y1,…,yN)T A n×d xTi
Então o posterior é
Após muitos cálculos , descobrimos que
onde ( é a matriz de precisão)Λ
Observe que é igual ao da regressão linear regular, porque, para o gaussiano, a média é igual ao modo.μ wMAP
Além disso, podemos fazer uma álgebra sobre e obter a seguinte igualdade ( ):μ Λ=aATA+bId
e compare com :wMLE
A expressão extra em corresponde ao anterior. Isso é semelhante à expressão para a regressão de Ridge, para o caso especial em que . A regressão de Ridge é mais geral porque a técnica pode escolher antecedentes impróprios (na perspectiva bayesiana).μ λ=ba
Para a distribuição posterior preditiva:
é possível calcular isso
Referência: Lunn et al. The BUGS Book
Para usar uma ferramenta MCMC como JAGS / Stan, verifique Doing Bayesian Data Analysis da Kruschke
fonte