Regressão de Bayes: como é feita em comparação com a regressão padrão?

Eu tenho algumas perguntas sobre a regressão bayesiana:

Dada uma regressão padrão como . Se eu quiser mudar isso para uma regressão bayesiana, preciso de distribuições anteriores para e (ou não funciona dessa maneira)? $y = \beta_0 + \beta_1 x + \varepsilon$ $\beta_0$ $\beta_1$
Na regressão padrão, tentaria-se minimizar os resíduos para obter valores únicos para e . Como isso é feito na regressão de Bayes? $\beta_0$ $\beta_1$

Eu realmente luto muito aqui:

posterior = prior \times likelihood

$\text{posterior} = \text{prior} \times \text{likelihood}$

A probabilidade vem do conjunto de dados atual (portanto, é meu parâmetro de regressão, mas não como um valor único, mas como uma distribuição de probabilidade, certo?). Prior vem de uma pesquisa anterior (digamos). Então, eu tenho essa equação:

y = β_{1} x + ε

$y = \beta_1 x + \varepsilon$

sendo minha probabilidade ou posterior (ou isso é totalmente errado)? $\beta_1$

Simplesmente não consigo entender como a regressão padrão se transforma em uma de Bayes.

regression bayesian TinglTanglBob
fonte

Respostas:

Modelo de regressão linear simples

y_{i} = α + β x_{i} + ε

$y_i = \alpha + \beta x_i + \varepsilon$

pode ser escrito em termos de modelo probabilístico por trás dele

μ_{i} = α + β x_{i} y_{i} \sim N (μ_{i}, σ)

$\mu_i = \alpha + \beta x_i \\ y_i \sim \mathcal{N}(\mu_i, \sigma)$

isto é, a variável dependente segue a distribuição normal parametrizada pela média , que é uma função linear de parametrizada por e pelo desvio padrão . Se você estimar esse modelo usando mínimos quadrados comuns , não precisa se preocupar com a formulação probabilística, porque está procurando valores ideais dos parâmetros , minimizando os erros quadrados dos valores ajustados para os valores previstos. Por outro lado, você poderia estimar esse modelo usando a estimativa de máxima verossimilhança , onde procuraria valores ótimos de parâmetros, maximizando a função de verossimilhança $Y$ $\mu_i$ $X$ $\alpha,\beta$ $\sigma$ $\alpha,\beta$

\underset{α, β, σ}{a r g m a x} \prod_{i = 1}^{n} N (y_{i}; α + β x_{i}, σ)

$\DeclareMathOperator*{\argmax}{arg\,max} \argmax_{\alpha,\,\beta,\,\sigma} \prod_{i=1}^n \mathcal{N}(y_i; \alpha + \beta x_i, \sigma)$

onde é uma função de densidade da distribuição normal avaliada nos pontos , parametrizada por meio de e desvio padrão . $\mathcal{N}$ $y_i$ $\alpha + \beta x_i$ $\sigma$

Na abordagem bayesiana, em vez de maximizar apenas a função de verossimilhança, assumiríamos distribuições anteriores para os parâmetros e usaríamos o teorema de Bayes

posterior \propto likelihood \times prior

$\text{posterior} \propto \text{likelihood} \times \text{prior}$

A função de probabilidade é a mesma que acima, mas o que muda é que você assume algumas distribuições anteriores para os parâmetros estimados e as inclui na equação $\alpha,\beta,\sigma$

\underset{posterior}{\underset{⏟}{f (α, β, σ ∣ Y, X)}} \propto \underset{likelihood}{\underset{⏟}{\prod_{i = 1}^{n} N (y_{i} ∣ α + β x_{i}, σ)}} \underset{priors}{\underset{⏟}{f_{α} (α) f_{β} (β) f_{σ} (σ)}}

$\underbrace{f(\alpha,\beta,\sigma\mid Y,X)}_{\text{posterior}} \propto \underbrace{\prod_{i=1}^n \mathcal{N}(y_i\mid \alpha + \beta x_i, \sigma)}_{\text{likelihood}} \; \underbrace{f_{\alpha}(\alpha) \, f_{\beta}(\beta) \, f_{\sigma}(\sigma)}_{\text{priors}}$

"Quais distribuições?" é uma pergunta diferente, pois há um número ilimitado de opções. Para parâmetros você poderia, por exemplo, assumir distribuições normais parametrizadas por alguns hiperparâmetros , ou distribuição se você quiser assumir caudas mais pesadas ou distribuição uniforme se você não quiser fazer muitas suposições, mas deseja assumir que os parâmetros podem ser a priori "qualquer coisa no intervalo especificado", etc. Para você precisa assumir alguma distribuição anterior que é delimitada como sendo maior que zero, pois o desvio padrão precisa ser positivo. Isso pode levar à formulação do modelo, como ilustrado abaixo por John K. Kruschke. $\alpha,\beta$ $t$ $\sigma$

(fonte: http://www.indiana.edu/~kruschke/BMLR/ )

Enquanto em probabilidade máxima você estava procurando um único valor ótimo para cada um dos parâmetros, na abordagem bayesiana, aplicando o teorema de Bayes, você obtém a distribuição posterior dos parâmetros. A estimativa final dependerá da informação que vem de seus dados e de seus antecedentes , mas quanto mais informação está contida em seus dados, a menos influentes são priores .

Observe que, ao usar anteriores uniformes, elas assumem a forma após eliminar as constantes de normalização. Isso faz com que o teorema de Bayes seja proporcional à função de probabilidade isolada, de modo que a distribuição posterior atingirá seu máximo exatamente no mesmo ponto da estimativa de probabilidade máxima. A seguir, a estimativa sob prioros uniformes será a mesma do uso de mínimos quadrados comuns, pois minimizar os erros ao quadrado corresponde a maximizar a probabilidade normal . $f(\theta) \propto 1$

Para estimar um modelo na abordagem bayesiana em alguns casos, você pode usar anteriores conjugados , para que a distribuição posterior esteja diretamente disponível (veja o exemplo aqui ). Entretanto, na grande maioria dos casos, a distribuição posterior não estará disponível diretamente e você precisará usar os métodos Monte Carlo da Cadeia de Markov para estimar o modelo (verifique este exemplo do uso do algoritmo Metropolis-Hastings para estimar parâmetros de regressão linear). Finalmente, se você estiver interessado apenas em estimativas pontuais de parâmetros, poderá usar a estimativa máxima a posteriori , ou seja,

\underset{α, β, σ}{a r g m a x} f (α, β, σ ∣ Y, X)

$\argmax_{\alpha,\,\beta,\,\sigma} f(\alpha,\beta,\sigma\mid Y,X)$

Para uma descrição mais detalhada da regressão logística, você pode verificar o modelo de logit Bayesiano - explicação intuitiva? fio.

Para saber mais, consulte os seguintes livros:

Kruschke, J. (2014). Fazendo análise de dados bayesiana: um tutorial com R, JAGS e Stan. Academic Press.

Gelman, A., Carlin, JB, Stern, HS e Rubin, DB (2004). Análise de dados bayesianos. Chapman & Hall / CRC.

Tim
fonte

+1 Dada a forma como a pergunta é formulada, talvez eu enfatize um pouco mais essa diferença filosófica: nos mínimos quadrados comuns e na estimativa de probabilidade máxima, começamos com a pergunta "Quais são os melhores valores para (talvez para mais tarde usar)?" $\beta_i$ , enquanto na abordagem bayesiana completa, começamos com a pergunta "O que podemos dizer sobre os valores desconhecidos ?" $\beta_i$ e então talvez continue usando a média máxima a posteriori ou posterior se for necessária uma estimativa pontual.

Jik

+1. Mais uma coisa que pode ser útil apontar para esclarecer a relação entre as abordagens bayesiana e OLS é que OLS pode ser entendida como média posterior sob um plano anterior (pelo menos até onde eu entendi). Seria ótimo se você pudesse elaborar um pouco isso em sua resposta.

Ameba diz Reinstate Monica

@amoeba é um bom ponto, vou pensar nisso. Mas, por outro lado, eu não quero fazer a resposta abertamente longa, então há um ponto em ir aos detalhes.

Tim

@amoeba FYI, adicionei um breve comentário sobre isso.

Tim

Dado um conjunto de dados que , uma Regressão Linear Bayesiana modela o problema no da seguinte maneira: $D = (x_1,y_1), \ldots, (x_N,y_N)$ $x \in \mathbb{R}^d, y \in \mathbb{R}$

w \sim N (0, σ_{w}^{2} I_{d})

$w \sim \mathcal{N}(0, \sigma_w^2 I_d)$

$w$ é o vetor , portanto a distribuição anterior é uma gaussiana multivariada; e é a matriz de identidade . $(w_1, \ldots, w_d)^T$ $I_d$ $d\times d$

Probabilidade:

Y_{i} \sim N (w^{T} x_{i}, σ^{2})

$Y_i \sim \mathcal{N}(w^T x_i, \sigma^2)$

Assumimos que $Y_i \perp Y_j | w, i \neq j$

Por agora vamos usar a precisão ao invés da variância, , e . Também assumiremos que são conhecidos. $a = 1/\sigma^2$ $b = 1/\sigma_w^2$ $a,b$

O anterior pode ser declarado como

p (w) \propto \exp {- \frac{b}{2} w^{t} w}

$p(w) \propto \exp \Big\{ -\frac{b}{2} w^t w \Big\}$

E a probabilidade de

p (D | w) \propto \exp {- \frac{a}{2} (y - A w)^{T} (y - A w)}

$p(D|w) \propto \exp \Big\{ -\frac{a}{2} (y-Aw)^T (y-Aw) \Big\}$

onde e é um matriz em que o i-ésimo fileira é . $y = (y_1,\ldots,y_N)^T$ $A$ $n\times d$ $x_i^T$

Então o posterior é

p (w | D) \propto p (D | w) p (w)

$p(w|D) \propto p(D|w) p(w)$

Após muitos cálculos , descobrimos que

p (w | D) \sim N (w | μ, Λ^{- 1})

$p(w|D) \sim \mathcal{N}(w | \mu, \Lambda^{-1})$

onde ( é a matriz de precisão) $\Lambda$

Λ = a A^{T} A + b I_{d}

$\Lambda = a A^T A + b I_d$

μ = a Λ^{- 1} A^{T} y

$\mu = a \Lambda^{-1} A^T y$

Observe que é igual ao da regressão linear regular, porque, para o gaussiano, a média é igual ao modo. $\mu$ $w_{MAP}$

Além disso, podemos fazer uma álgebra sobre e obter a seguinte igualdade ( ): $\mu$ $\Lambda = aA^TA+bI_d$

μ = (A^{T} A + \frac{b}{a} I_{d})^{- 1} A^{T} y

$\mu = (A^T A + \frac{b}{a} I_d)^{-1} A^T y$

e compare com : $w_{MLE}$

w_{M L E} = (A^{T} A)^{- 1} A^{T} y

$w_{MLE} = (A^T A)^{-1} A^T y$

A expressão extra em corresponde ao anterior. Isso é semelhante à expressão para a regressão de Ridge, para o caso especial em que . A regressão de Ridge é mais geral porque a técnica pode escolher antecedentes impróprios (na perspectiva bayesiana). $\mu$ $\lambda = \frac{b}{a}$

Para a distribuição posterior preditiva:

p (y | x, D) = \int p (y | x, D, w) p (w | x, D) d w = \int p (y | x, w) p (w | D) d w

é possível calcular isso

y | x, D \sim N (μ^{T} x, \frac{1}{a} + x^{T} Λ^{- 1} x)

$y|x,D \sim \mathcal{N}(\mu^Tx, \frac{1}{a} + x^T \Lambda^{-1}x)$

Referência: Lunn et al. The BUGS Book

Para usar uma ferramenta MCMC como JAGS / Stan, verifique Doing Bayesian Data Analysis da Kruschke

jpneto
fonte

Obrigado jpneto. Eu sinto que esta é uma ótima resposta, mas ainda não a entendo devido à falta de conhecimentos de matemática. Mas eu definitivamente lê-lo novamente depois de ganhar um pouco de matemática de habilidades

TinglTanglBob

Isso é muito bom, mas a suposição de que a precisão é conhecida é um pouco incomum. Não é muito mais comum assumir uma distribuição gama inversa para a variação, ou seja, uma distribuição gama para a precisão?

DeltaIV

+1. Você pode comentar um pouco mais sobre "A regressão de Ridge é mais geral porque a técnica pode escolher anteriores impróprios"? Eu não entendo. Eu pensei RR = Gaussian (apropriado) antes em .

w

$w$

Ameba diz Reinstate Monica

@amoeba: O prior gaussiano é mas pode ser zero, o que resulta em um anterior impróprio, ou seja, resulta no MLE.

w \sim N (0, λ^{- 1} I_{d})

$w \sim N(0,\lambda^{-1} I_d)$

λ

$\lambda$

jpneto

@ DeltaIV: claro, quando temos incerteza sobre um parâmetro, podemos modelar isso com um prior. A suposição de precisão conhecida é facilitar a localização de uma solução analítica. Geralmente, essas soluções analíticas não são possíveis e devemos usar aproximações, como o MCMC ou alguma técnica variacional.

jpneto